关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3789人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

顶流男星陷“禁演”罗生门?

仙女事件簿 浏览 1826

媒体:执政半年 李在明抓住了一个关键窗口期

澎湃新闻 浏览 8666

转战舞池,前意大利网球名将弗格尼尼斩获《与星共舞》冠军

懂球帝 浏览 3527

国家医保局:职工医保个人账户跨省共济今年全国覆盖

商业观察杂志社 浏览 1947

弗莱彻首战曼联将用四后卫,B费请缨出战!新帝星已撤回转会申请

罗米的曼联博客 浏览 2705

中国长安汽车发布“1445”全球战略 阿维塔深蓝将战略整合

网易汽车 浏览 765

韩庚官宣生子,撕开了鹿晗和关晓彤的体面?

包饺子ai剪辑 浏览 3508

111年之耻!巴西首次2比0领先却失利,安切洛蒂亲手揪出罪人

奥拜尔 浏览 3872

展映11天!北京国际电影节正式官宣

幕味儿 浏览 1608

这双美鞋从6岁到60+都能穿,穿对了复古又浪漫~

黎贝卡的异想世界 浏览 5384

整车34.98万元/租电24.18万元,蔚来新ES6 30万台纪念版上市

IT之家 浏览 3047

美媒:美方提出的28点新计划已缩减为19点

极目新闻 浏览 13623

《今日说法》主持人李晓东从央视离职 曾买茶叶被骗

封面新闻 浏览 8958

博主虚构成本数据,编造“利益输送”,胖东来再发声明

大象新闻 浏览 307

特朗普要求日本停止进口俄罗斯能源 高市早苗当面拒绝

鲁中晨报 浏览 9578

女人过了40岁真该看看这些穿搭,不老气、不单薄,简单又耐看

静儿时尚达人 浏览 2519

台湾艺人修杰楷、陈柏霖涉嫌逃避兵役被台检拘提问话

界面新闻 浏览 3610

普京指挥俄战略核力量演习 发射洲际弹道导弹

新华社 浏览 3702

丝袜称明年随心参赛无视强制参赛规则,高芙称女网更有趣更具悬念

网球之家 浏览 3539

伊朗:国内各政治力量立场一致 敌对势力不要误判

国际在线 浏览 492

解放军举行围台军演 郑丽文:赖清德把自己的路走绝了

海峡导报社 浏览 24347
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1