关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技835人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

外卖救了全聚德?

BT财经 浏览 14656

先是欧洲再是美国,低售价的小型电动车成为市场新风向

百姓评车 浏览 10758

直播|| 降温天的居家幸福感,是它们给的

黎贝卡的异想世界 浏览 840

韩国时尚杂志《W,Korea》为活动道歉

悠悠说世界 浏览 913

秋天,穿成大女人更高级!

LinkFashion 浏览 15109

国家统计局城市司高级统计师沈赟解读2023年12月份 商品住宅销售价格变动情况统计数据

国家统计局 浏览 12884

加沙城民众生计仍然艰难 天气与蚊虫也成威胁

极目新闻 浏览 830

租客死亡4年后房东以"房屋贬值"把中介告了 法院判了

封面新闻 浏览 6662

冬季穿搭最关键的就是“保暖”!参考这16套造型,降温也不怕

静儿时尚达人 浏览 12941

俄乌冲突关键时刻拜登将赴欧洲 还将会见查尔斯三世

上观新闻 浏览 96257

十九大以来西藏"首虎"获刑 曾是当地政府最年轻副主席

政知新媒体 浏览 73904

韩娱圈太卷了!女嘉宾曝节目组自掏腰包让素人整容,成功变脸走红

文艺圈娱乐号 浏览 12879

连续第4晚发生骚乱 法国已部署4.5万名警察和执法车辆

环球网 浏览 90250

《老友记》五人组发联合声明悼念马修:无比悲痛

网易娱乐 浏览 14136

金银同创历史新高,国内金饰克价突破1180元,现在还是追高时机吗?

澎湃新闻 浏览 990

汽车降价潮调查:政府补贴含金量高,车企让利并不多

红星资本局 浏览 18992

"太子集团"头目被指曾遭手下"黑吃黑" 后者已申请破产

红星新闻 浏览 5825

赵本山儿子和美女打闹太亲昵,瘦身成功被指般配

盖饭娱乐官方号 浏览 16389

世体:拉波尔塔周一中午抵达体育城,向球队重申支持和鼓励

懂球帝 浏览 825

Makiyo谈陈建州风波 曾爆料对方在聚会上"谁都亲"

网易娱乐 浏览 15751

66岁港星与太太秀恩爱 被指吃软饭遭太太出手维护

TVB剧评社 浏览 19224
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1