关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技834人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

图卢兹vs梅斯:雷斯特、西迪贝首发,巴洛-图雷、哈比卜-迪亚洛出战

懂球帝 浏览 982

金莲花奖女配提名 85花顶流之争再升级

桑葚爱动画 浏览 274

小伙雕刻"全球首个汽车石窟" 曾雕"奥特曼"石窟引争议

封面新闻 浏览 6628

倪妮和周雨彤的默契,除了礼服还有它

创作者_WCD3 浏览 13538

北约将在德国举办“史上最大规模空中军演”:25国逾200架军机参加

环球网资讯 浏览 16650

北约秘书长呼吁解除乌用西方武器打击俄本土限制

环球网资讯 浏览 11012

日方首度确认 中国两栖攻击舰路过鹿儿岛

参考消息 浏览 18172

天文观测挑战牛顿理论?韩国学者:如证实对宇宙理解产生巨大影响

量子位 浏览 14613

美中央司令部证实:一艘美国货轮遭胡塞武装袭击

央视新闻客户端 浏览 77889

微软计划最早明年推出手机游戏商店,与苹果和谷歌竞争

界面新闻 浏览 19432

泫雅疑官宣恋情!与龙俊亨同步发牵手照,想要支持,公司:确认中

文艺圈娱乐号 浏览 12981

今年冬天最火的穿法:夹克+裤子,时髦又减龄!

LinkFashion 浏览 591

机构:预计2024年全球AI服务器将超160万台,同比增长40%

界面新闻 浏览 12444

聚酯纤维都没嫌老实人穷

老斯基财经 浏览 50

俄总统助理:普京和特朗普会晤意愿依旧存在

每日经济新闻 浏览 799

从对手到盟友,刘强东王兴联手要“联吴抗曹”?

BT财经 浏览 863

菲大使刚威胁完中国,山东舰直接堵菲家门

浏览 10673

全球首个海上千方 PEM 槽及制氢系统的全功率测试启动

IT之家 浏览 826

广汽集团曾庆洪:中国汽车市场将保持微增长,想“找死”的企业就早点降价

21世纪经济报道 浏览 16655

撕开铁幕裂缝:国产手术机器人的千亿逆袭

钛媒体APP 浏览 1043

复旦大学法学院学生在毕业典礼上挥拳打老师 院方通报

复旦大学法学院 浏览 63087
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1