关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3487人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

热刺遭遇穆罕默德·库杜斯新的伤病挫折

绿茵情报局 浏览 1111

自动驾驶真的来了 两款车型分别在北京/重庆获准上路

网易汽车 浏览 3047

北约举行一年一度“坚定正午”核演习

极目新闻 浏览 3738

10月份,本田飞度就卖出去3辆,你没看错,就是3辆

凡兮说 浏览 3508

理解了这轮“金铜铝牛市”的底层逻辑,也就理解了中国经济的未来

锦缎研究院 浏览 2981

首款轻商量产钠电池 宁德时代发布天行Ⅱ轻商系列动力电池

网易汽车 浏览 2606

《数据周报97》:房地产何去何从?参考美日经验

智本社 浏览 2654

大连“智”造金属螺钉骨植入材料将上市

半岛晨报 浏览 4491

NASA局长:中国实力令人震撼 发展速度堪比SpaceX

澎湃新闻 浏览 30305

伊朗外长:利用阿联酋发动攻击“完全不可接受”

国际在线 浏览 1643

热议中超:恶心国安放水,西海岸和英博值得尊重

懂球帝 浏览 3672

纯电续航提升 2026款比亚迪夏将于明日上市

车质网 浏览 3475

中山大学等九校联手突破:AI实现软件bug自动侦测与修复

科技行者 浏览 2544

快看!!这个女演员近日暴瘦!!哦,知道了……

时尚COSMO 浏览 303

伊朗突然关闭领空引猜测 西方密集渲染"动武"威胁

环球网资讯 浏览 13892

以色列的新常态:创伤、分裂与集体错觉

澎湃新闻 浏览 3783

沉浸式感受"正义使命-2025"演习现场

环球网资讯 浏览 2775

部分苹果 iPhone 17 Pro/Max 用户反馈机身褪色

IT之家 浏览 3721

海外投资者争做基石!摩根大通:中国药企全球竞争力提升,投融资持续活跃

券商中国 浏览 3672

古特雷斯:联合国将全力支持加沙停火协议

环球网资讯 浏览 3759

尼日利亚主帅:民主刚果在点球大战时使用巫师做法,胜之不武

懂球帝 浏览 3358
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1