关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2532人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官宣!这座“一线”省份,继续力挺省会

西部城市 浏览 2643

900万粉丝网红到一村庄办杀猪宴:村民收场地费还分肉

极目新闻 浏览 19378

小米Watch Type-C充电底座发布:磁吸设计、共用手机线,39元

IT之家 浏览 735

澳大利亚女足近3次亚洲杯半决赛保持不败,共6次参赛4次晋级

懂球帝 浏览 521

东南大学突破:AI学会情境化拒绝能力

科技行者 浏览 2773

E句话| 这俩的婚纱照,还挺甜?

仙女事件簿 浏览 2755

女人不管多大都可以这样穿衣搭配,不花哨、不臃肿,优雅舒适

静儿时尚达人 浏览 2286

太猛了!保险巨头炒股竟大赚300多亿

财通社 浏览 2765

一夜翻盘,炫富网红蓝战非复活了

TVB的四小花 浏览 2817

媒体:赖清德再当汉奸"卖台" 看美媒报道一定心碎一地

环球时报新闻 浏览 33694

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者 浏览 2621

姚晨回应即将到期“赎身”!真是弹指一挥间...

犀利辣椒 浏览 2017

账面1000多亿,却隐藏20多年,整个互联网都找不到它长什么样

壹只灰鸽子 浏览 1545

千年《琵琶行》,预制“公关秀”

时尚COSMO 浏览 2605

精读季报丨谢治宇的基金,为什么只适合“买”,不适合“抄”?

一地基毛 浏览 1432

郑丽文再称"大陆是我们的亲人" 民进党直接跳脚

扬子晚报 浏览 7641

港台影视圈已经没有“小花”了

仙女事件簿 浏览 2525

足协官宣 45岁邵佳一出任国足新主帅

央视新闻客户端 浏览 14766

俄朝站队怒批高市 特朗普迅速与日切割中方警告很罕见

现代小青青慕慕 浏览 46728

中乌外交部政治磋商在北京举行

界面新闻 浏览 1954

终于有一部国产剧,不靠「爽感」博眼球了

独立鱼 浏览 1580
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1