关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技827人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

秦刚:中方发布政治解决乌克兰危机文件 提出12条主张

环球网资讯 浏览 98418

FMVP庞峥麟:谢谢支持广西威壮的朋友们 我们是冠军

直播吧 浏览 19263

《喜人2》中的演员,个个都让人笑抽筋,最后一个更是离谱至极

娱乐圈笔娱君 浏览 1017

程又青,30岁的你也会生长痛吗?

时尚COSMO 浏览 1819

皇马下赛季主场球衣细节:金边线条搭配口号“Hala Madrid”

直播吧 浏览 19346

卡萨诺:有九名球员不配在尤文踢球,戴维糟糕到令人难以直视

懂球帝 浏览 873

王健林“决战”IPO

中国企业家杂志 浏览 15608

金智秀最新大片撞脸蔡依林!网友不敢认,颜值高却被吐槽演技太差

文艺圈娱乐号 浏览 13011

丹麦赛石宇奇击败阿塞尔森进决赛

体坛周报 浏览 956

科大讯飞不能错过大模型

晚点LatePost 浏览 14712

谷歌宣布Humboldt海底光缆项目:横跨14800公里,耗资4亿美元

IT之家 浏览 12478

打得不错!威少半场5中3得到7分1篮板2助攻1抢断

直播吧 浏览 12413

坏消息!美国一致同意禁止中国使用AI服务

浏览 10704

看来看去这些才是适合普通人穿搭,不必花枝招展,简单又舒适

静儿时尚达人 浏览 2028

汪峰儿童节陪女儿参加运动会,8岁醒醒高清正脸出镜,不像章子怡

娱絮 浏览 10945

亚马逊据悉将淘汰数十个自有品牌,旨在抵御反垄断审查并提振利润

界面新闻 浏览 14540

美国共和党总统参选人:我们对台的承诺会变

环球网 浏览 84498

沿海大省广东再次选择在特殊时间召开全省重要大会

政知新媒体 浏览 80212

辛巴:辛选超级年货节正式开启,2023实现GMV超500亿元

网易科技报道 浏览 12846

城市24小时 | 经济大省弱省会,要变“大”了?

城市进化论 浏览 13006

谷歌Pixel 10a渲染图曝光:无凸起后盖设计,配备6.2英寸屏幕

IT之家 浏览 791
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1