关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2533人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

投机永不眠!加密货币失宠 币圈玩家转战预测市场

智通财经 浏览 1431

曝郑爽新账号被封,15天前起的号

有范又有料 浏览 1597

印尼国家队经理:克鲁伊维特教练团队必须重新接受评估

懂球帝 浏览 2858

秋冬别穿阔腿裤了!裙子才是粗腿女孩的救星!

Yuki女人故事 浏览 2320

《大生意人》将至,陈晓出演一代商王,或可比肩《乔家大院》

最爱酷影视 浏览 2885

万亿“宁王”,又出手

中国基金报 浏览 2637

共享电单车下沉战升级!松果出行递表港股,业务覆盖全国422个市县|港E声

时代周报 浏览 1741

欧足联临时禁赛普雷斯蒂安尼依据:捂嘴、维尼修斯&姆巴佩证词等

懂球帝 浏览 951

张国强:被前妻嫌穷,如今苦尽甘来

小娱乐悠悠 浏览 3294

储能内卷的标准样本:黑马果下科技,究竟是如何速成的?

赶碳号 浏览 1665

两位省委常委跨省履新 其中一人曾长期在中纪委工作

极目新闻 浏览 8674

年销280万辆,出口134万辆后,奇瑞的下一站在哪

智电汽车. 浏览 1565

小鹏旗下又一公司秘密提交IPO

电动知家 浏览 1679

豪掷近5000万买豪宅,曾被马云看重的男人身家68亿

雷达财经 浏览 2556

6.4万的特斯拉FSD将成为历史!

新车评网 浏览 1627

华为“二代”:孟晚舟与姚安娜,截然不同的路

清欢娱乐八卦 浏览 2023

郝蕾跟辛芷蕾杠上了?

大龄女一晓彤 浏览 2403

宗馥莉几乎搞砸了一切

功夫财经 浏览 2669

特朗普敲打美最高法院:再做出否决 中国就赚爽了

观察者网 浏览 36714

FLX1s Linux 手机发布:预装基于 Debian 的 FuriOS,550 美元

IT之家 浏览 3468

社评|立足新起点 奋力开新局

中国企业家杂志 浏览 1786
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1