关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3763人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

商务部:2026年优化消费品以旧换新政策实施

央视财经 浏览 2604

22个州经济正在萎缩,消费者信心持续下跌,多家机构警告美国经济衰退

环球网资讯 浏览 3787

俄美领导人会晤为何被“推迟” 俄外长披露原因

每日经济新闻 浏览 3532

特朗普:我100%会加税 欧洲等着吧

澎湃新闻 浏览 11608

加多宝和王老吉又打击起来了?持续不断的争斗真的有意义吗?

江瀚视野 浏览 3688

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

中国新闻周刊 浏览 6308

2026短剧出海:淘汰赛加速,谁主沉浮?

霞光社 浏览 2548

香港中文大学突破AI训练难题:单个词汇也能让机器学得更聪明

科技行者 浏览 3629

马杜罗在纽约首次“出庭” 多国发表联合声明

环球网资讯 浏览 2779

俄乌两国元首新年同时强硬 泽连斯基邀特朗普"直飞"乌

上观新闻 浏览 17853

马竞战博德闪耀大名单:格列兹曼缺阵,小蜘蛛、瑟洛特在列

懂球帝 浏览 2512

47岁冯绍峰颜值回春,自称是威尼斯影后的朋友

扒虾侃娱 浏览 3408

中国游客称在瑞士看到峨眉山石 官方证实:已落户10年

封面新闻 浏览 11204

关晓彤马尔代夫度假,满屏大长腿超抢镜

扒虾侃娱 浏览 3688

美伊本周有望在土耳其开谈 伊朗或在核问题上松口

上观新闻 浏览 5018

公募基金业绩比较基准迎规范,证监会、中基协公开征求意见

华夏时报 浏览 3546

大量用户举报投诉,微信:严厉打击!

大象新闻 浏览 3564

3门双座布局 smart精灵#2将于年底发布

车质网 浏览 2439

拉波尔塔:回到诺坎普,我流下了一些泪水

懂球帝 浏览 3424

AI驱动产业升级 全屋智能迈入生态竞争新阶段

封面新闻 浏览 1777

厄德高谈晋级世界杯:这种感觉无法用语言形容,简直疯狂至极

懂球帝 浏览 3395
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1