关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2775人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

独家|我们与淘宝闪购管理层聊了聊增长的持续性问题

虎嗅APP 浏览 2678

中国AIGC用户破5亿,增长1倍;美团:今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆

极客公园 浏览 2701

大厂们掀起春节大战:狂撒10亿红包,只为争夺AI时代「新船票」?

雷科技 浏览 1475

你觉得美,可能是大脑在偷偷节能|光锥读论文

未来光锥 浏览 2133

继《沉默的荣耀》后又一黑马谍战作品

娱乐圈笔娱君 浏览 2414

门多萨:为马竞效力是儿时梦想,身边队友小时候在电视上看过

懂球帝 浏览 1362

10.58 万!零跑造了一台「红米 YU7」

极客公园 浏览 2508

韩国防部给出核潜艇下水时间点 此前韩国已向中方保证

澎湃新闻 浏览 15145

输深圳山西球迷绝望了!末节攻守全崩,精气神也丢,该清理混子了

篮球资讯达人 浏览 1639

1999元起 华为畅享70X尊享版开售:麒麟8000芯片、一键发送北斗卫星消息

快科技 浏览 2132

华为WATCH GT5 Pro手表获鸿蒙6.0.0.20更新:支付宝碰一下升级

IT之家 浏览 2447

日产携左舵版N7亮相2025日本移动出行展

网易汽车 浏览 2504

全球最大容器镜像库Docker Hub安全调查:10000+镜像泄露敏感密钥

IT之家 浏览 2067

倪萍又说大实话,感叹李施嬅爱情里像“当妈”

疯说时尚 浏览 2550

58岁侯勇老来得子!携小20岁三婚妻子亮相澳门

阿纂看事 浏览 2086

记者:福登疑似手部骨折,具体伤情还要等待扫描结果

懂球帝 浏览 1601

怒批9人摆烂!穆帅不惧球员造反:你爸一直对你好? 4轮0分非末日

风过乡 浏览 2306

牛弹琴:特朗普“三个很开心” 让全世界脊背发凉

现代快报 浏览 77587

8.88万起售 还带8155芯片与L2辅助驾驶

My车轱辘 浏览 3502

华盛顿大学与耶鲁大学联手:医疗数据库为何让顶尖AI模型"抓狂"

科技行者 浏览 1670

欧摩威展示单雷达AEB方案!已获国内头部主机厂定点,明年将量产

车东西 浏览 2544
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1