关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元950人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新加坡主权基金起诉蔚来,股价迎中、美、新“三国杀”!

野马财经 浏览 907

美伊换囚成行,国际油价下挫

华尔街见闻官方 浏览 14686

郭虹去电影《无人区》试个在沙漠里开黑店的老板娘一角,可试完后很久都没有消息,就在她准备放弃时

趣看热点 浏览 27486

通用汽车计划今年销售至少25万辆电动汽车、削减20亿美元成本

IT之家 浏览 12491

点地成毯的热巴,再次解锁新高定

时尚COSMO 浏览 12597

因为它,马斯克和兵马俑跳起了《科目三》

爱范儿 浏览 12430

西裤一定要搭配皮鞋?今夏潮圈男士更爱运动鞋

男士穿衣搭配杂志 浏览 16025

球星赛混双4强产生,张本智和早田希娜爆冷出局,国乒2组合晋级!

乒谈 浏览 12560

搭2.9T插混动力 法拉利SC40官图发布

车质网 浏览 888

连续三个月“0破发”!1月新股上市首日平均涨84%

澎湃新闻 浏览 12416

热巴亮相活动大秀美背 太惊艳了

萌神木木 浏览 19731

是时候考虑购买美国大豆了,为了“拴住”特朗普!

北向财经 浏览 769

巴铁用中国武器击落阵风后,印度信心崩溃

浏览 5017

Jennie自曝单飞成立新公司原因!吐苦水称很怕生

文艺圈娱乐号 浏览 13015

7.38 万元起,五菱扬光新能源商用车开启预售

IT之家 浏览 12260

中邮人寿再收监管罚单:涉及提供虚假投诉数据报告

面包财经 浏览 13124

在美流浪博士校友:他当年是拿到李政道奖学金去的美国

上游新闻 浏览 74058

淘宝闪购新工服需骑手自费购买?平台回应来了!

雷科技 浏览 685

AI 接连翻车的 Google,要变天了

爱范儿 浏览 11319

海事局:北部湾部分海域进行军事训练 禁止船舶驶入

环球网资讯 浏览 14550

没入选巴西国家队,恩德里克在国际比赛日期间前往摩洛哥度假

懂球帝 浏览 1016
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1