关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元3763人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

埃迪-豪面对前东家伯恩茅斯7场不胜，并列英超主帅最长不胜纪录

直播吧浏览 4315

A股“达链”或再增一员，高通前高级工程师要上市敲钟了|读懂IPO

时代周报浏览 2739

英伟达正式发布LPU，CPU重磅更新：GPU不再是GTC唯一主角

半导体行业观察浏览 1652

精彩推荐

商务部：2026年优化消费品以旧换新政策实施

央视财经浏览 2604

22个州经济正在萎缩，消费者信心持续下跌，多家机构警告美国经济衰退

环球网资讯浏览 3787

俄美领导人会晤为何被“推迟” 俄外长披露原因

每日经济新闻浏览 3532

特朗普：我100%会加税欧洲等着吧

澎湃新闻浏览 11608

加多宝和王老吉又打击起来了？持续不断的争斗真的有意义吗？

江瀚视野浏览 3688

福建籍女网红流落柬埔寨街头毒品检测呈阳性

中国新闻周刊浏览 6308

2026短剧出海：淘汰赛加速，谁主沉浮？

霞光社浏览 2548

香港中文大学突破AI训练难题：单个词汇也能让机器学得更聪明

科技行者浏览 3629

马杜罗在纽约首次“出庭” 多国发表联合声明

环球网资讯浏览 2779

俄乌两国元首新年同时强硬泽连斯基邀特朗普＂直飞＂乌

上观新闻浏览 17853

马竞战博德闪耀大名单：格列兹曼缺阵，小蜘蛛、瑟洛特在列

懂球帝浏览 2512

47岁冯绍峰颜值回春，自称是威尼斯影后的朋友

扒虾侃娱浏览 3408

中国游客称在瑞士看到峨眉山石官方证实：已落户10年

封面新闻浏览 11204

关晓彤马尔代夫度假，满屏大长腿超抢镜

扒虾侃娱浏览 3688

美伊本周有望在土耳其开谈伊朗或在核问题上松口

上观新闻浏览 5018

公募基金业绩比较基准迎规范，证监会、中基协公开征求意见

华夏时报浏览 3546

大量用户举报投诉，微信：严厉打击！

大象新闻浏览 3564

3门双座布局 smart精灵#2将于年底发布

车质网浏览 2439

拉波尔塔：回到诺坎普，我流下了一些泪水

懂球帝浏览 3424

AI驱动产业升级全屋智能迈入生态竞争新阶段

封面新闻浏览 1777

厄德高谈晋级世界杯：这种感觉无法用语言形容，简直疯狂至极

懂球帝浏览 3395

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1