关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3785人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

谭松韵,为什么百搭?

温柔娱公子 浏览 2879

有纯电/增程 极狐全新阿尔法T5预售12.38万起

网易汽车 浏览 3723

E句话| 她疑似有新恋情了?

仙女事件簿 浏览 2772

换装丰田混动系统!马力提升至219匹!美版2026款CX-50售21万

念寒车评 浏览 4124

媒体:高市涉台言论后又蹬鼻子上脸 野田佳彦在放鱼饵

新民周刊 浏览 17971

秋冬发色天花板!5款显白温柔发色拿图给Tony,染完被夸到过年

Yuki女人故事 浏览 2401

联合杯贝尔赫斯首胜阿利亚西姆

体坛周报 浏览 2658

被央媒怒批!目不识丁、脑子空空

东方不败然多多 浏览 3716

福建女商人林惠荣提国赔申请获立案 曾服刑7年获无罪

澎湃新闻 浏览 7158

你敢变重6公斤吗?

时尚COSMO 浏览 220

伊朗船只逼近美航母 美连开数炮全打空

每日经济新闻 浏览 1636

谷歌 CEO 皮查伊确认:下一代 AI 模型 Gemini 3 今年发布

IT之家 浏览 3388

AI学会玩游戏,还能像人类一样思考因果关系

科技行者 浏览 2647

卷首语 | 拒绝和解的勇气

时尚COSMO 浏览 3541

俄称打击乌军多处目标 乌称击退俄进攻

国际在线 浏览 3562

百万粉丝博主“稚晖君”在账号发介绍公司机器人视频,引发监管问询!公司紧急回应

红星资本局 浏览 2621

春节档全盘点、春晚、中戏反腐、冬奥会等

电影最TOP 浏览 2024

不一定能掀桌男主,但一定是个好演员!

伊周潮流 浏览 2480

黄宗泽哭着拿双料视帝,10次提名终于熬出头

手工制作阿歼 浏览 2727

38岁尹正再破天花板,这一次,他让整个娱乐圈“沉默”了

温柔娱公子 浏览 3050

鲁杰里:西蒙尼和加帅有共通之处;我们有效限制了国米的发挥

懂球帝 浏览 3212
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1