关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3484人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宋小宝春晚临时瞎编一句话红遍全国

乡野小珥 浏览 3594

导演们,该有危机意识了!野生创作正在崛起

时尚COSMO 浏览 2397

天啊!看到林志玲和小13岁刘亦菲同框,才懂王晶为啥说她很一般了

温柔娱公子 浏览 3144

手握低空经济王牌矩阵 上海向世界eVTOL之都迈进

看看新闻Knews 浏览 2673

张馨予华丽回归ELLE盛典,25斤重礼服惊艳全场

洲洲影视娱评 浏览 3476

泰军摧毁6个柬埔寨诈骗基地 称要斩断跨国犯罪根源

扬子晚报 浏览 2974

比亚迪唐9系旗舰SUV测试 要从BBA嘴里"抢肉吃"?

车矩阵更懂车 浏览 2559

OpenAI:人类打字速度将成通用人工智能发展瓶颈

IT之家 浏览 2922

药品存在被污染可能,印度最大药企一仿制药被暂停进口,用于治疗阿尔茨海默

红星资本局 浏览 2469

具俊晔暴瘦现身,搀扶着S妈,小S神情哀伤,范玮琪夫妻同行

素素娱乐 浏览 2465

网飞开年第一爆剧来了,快去看

独立鱼 浏览 2568

熊倪:上半年举办湘BA和龙舟超级联赛,6-11月举办湘超

懂球帝 浏览 2435

李施嬅困局:被有毒关系猎杀的富家女

仙女事件簿 浏览 2914

一块“十全十美”饼干,盛满星辰大海的甜

我们的太空 浏览 3491

金价暴跌 不少上海人跑外地买黄金:就像在抢大白菜

极目新闻 浏览 6683

为嫁"高富帅"与母亲互殴 31岁女子道歉:给他花90多万

潇湘晨报 浏览 7943

斯基拉:国米正计划加薪与皮奥续约到2031年

懂球帝 浏览 2605

项立刚再批罗永浩!为搞流量煽动舆论,被封就是活该

雷科技 浏览 2917

直播|| 春夏百元级首饰,最爱逛的一定有他家!

黎贝卡的异想世界 浏览 1013

谈情也谈钱,浪漫又轻盈,这门亲事我同意了!

吐槽电影院 浏览 2060

长外套+短靴,正流行

Yuki女人故事 浏览 2732
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1