关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元942人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新「极简风天花板」,这6个品牌值得一看

LinkFashion 浏览 13749

疫苗为何打在胳膊而不是屁股上?打针一边可以分为四类

趣看热点 浏览 25518

斯基拉:阿森纳正在关注铃木彩艳,有意在下个赛季引进他

懂球帝 浏览 252

原来牛仔裙才是春夏最减龄的单品

Yuki时尚酱 浏览 18959

德云社郭德纲发文喜提4个新身份,含金量都不低

素衣读史 浏览 682

看了《沉默的荣耀》就明白:于和伟的班,娱乐圈没有人接得了

娱乐圈笔娱君 浏览 1011

官宣:vivo成为杭州亚运会官方手机

网易科技报道 浏览 16478

被演唱会上的叶倩文惊艳

喵喵娱乐团 浏览 1022

加速进化抢单“双11”

北京商报 浏览 775

奥尼尔:投3分真太TMD爽了 羡慕现在的中锋 我打球时教练根本不让

直播吧 浏览 10822

42岁女子和73岁老汉发生关系后非要同居 老汉:赶不走

花点时间 浏览 73914

赵嘉义:穆迪的表现大家有目共睹 杨瀚森非常有天赋

直播吧 浏览 12865

林允儿新剧开播,33岁还像刚成团一样甜美

巧百搭 浏览 16256

天猫微信内上线天猫优品小程序,仅支持微信支付

Tech星球 浏览 16074

《一路繁花2》出圈理由

娱乐圈笔娱君 浏览 846

活塞99-98险胜老鹰,杜伦21分11板,杰伦-约翰逊空砍29+13

懂球帝 浏览 252

股权被冻结还被带走调查?王濛工作室发声回应

上游新闻 浏览 14615

秦始皇为什么焚书?李斯为什么建议要焚这些书?

趣看热点 浏览 26391

推广|| 用了好几年才推荐,这件单品真的值得投资

黎贝卡的异想世界 浏览 912

媒体:泽连斯基就反攻僵局表态 西方态度现明显变化

北京日报客户端-长安街知事 浏览 86454

好癫!今春五大流行元素出炉,是我不懂时尚了!

Yuki女人故事 浏览 12707
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1