关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者767人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

第九届人单合一模式引领论坛举行 构建AI时代的智能交互生态

尺度商业 浏览 1613

盛松成:各种情况显示 目前我国货币政策不宜收紧

中国财富管理50人论坛 浏览 26570

裙子+靴子、阔腿裤+运动鞋,今年最火的搭配!

LinkFashion 浏览 13351

中国电商霸榜西班牙,阿里Miravia、Shein、速卖通成购物APP前三

网易科技报道 浏览 19586

40岁的女人新年应该穿什么?试试这些养眼的穿搭,喜庆又高级

Yuki时尚酱 浏览 12903

乐摩科技八成设备“躺”在影院

北京商报 浏览 352

英国变异病毒已改变23次,儿童或成为易感人群

趣看热点 浏览 25368

《古惑仔》“人在江湖”午夜场首映时,导演刘伟强跑到电影院看反应如何

趣看热点 浏览 26911

当“中国表格之王”开始发力多维表格

硅星人 浏览 825

老队友再次重聚!杜克官方晒欧文、赛斯-库里大学时期帅气合照

直播吧 浏览 15152

距地球 5400 万光年,NGC 4535 棒旋星系新图公布

IT之家 浏览 12303

品牌旗下首款纯电SUV Jeep Wagoneer S先行版发布

网易汽车 浏览 11259

泽连斯基:乌克兰将对非短缺武器实施受控出口

政知新媒体 浏览 1500

票房破13亿,只是个开始

皮皮电影 浏览 1418

乌军从重镇阿夫杰耶夫卡撤出 俄军被指取得重大胜利

环球时报新闻 浏览 81455

普里戈任私人飞机在俄坠毁 美媒:拜登已听取简报

海外网 浏览 14065

将于东京车展首发 全新丰田卡罗拉官图曝光

车质网 浏览 1001

卷生卷死的韩国人,已经开始卷脖围了

她刊 浏览 13762

俄外交部就加拿大没收俄运输机表态 或对等报复

参考消息 浏览 16808

卖楼抵债!“烘焙第一股”克莉丝汀关闭所有门店

21世纪经济报道 浏览 15707

高市早苗被喊话:向中国道歉并且辞职

环球时报新闻 浏览 43097
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1