关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元947人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美太空军将首次参演“乙支自由之盾”

海外网 浏览 14575

2025蔚来日在杭州成功举办

财经无忌 浏览 1674

除了应对美国断供,华为自研基础软件还为什么

财经十一人官方 浏览 19366

遭美政府和科技企业联合施压 欧盟扛不住了又打算屈服

澎湃新闻 浏览 4741

不满国安糟糕战绩,工体北看台球迷连唱三首歌表达抗议

懂球帝 浏览 814

台军被爆要把弹药藏在民宅 回应称未实质性存放

环球网资讯 浏览 12991

穿着靓丽的英国奶奶街拍 驼背发福也优雅

小陈聊搭配 浏览 15332

今年秋冬最流行的4件外套,谁穿谁好看

LinkFashion 浏览 796

图片报:弗里克可能在9月的国际比赛日征召穆勒和诺伊尔

直播吧 浏览 16242

阿邦拉霍:安东尼在球场上有点愚蠢,他应为自己的表现感到沮丧

直播吧 浏览 18641

乌军要从巴赫穆特撤退?乌官方:将继续防御

环球网资讯 浏览 19145

小个子女生冬天怎么穿衣?上宽下紧、体现曲线,显高显瘦舒适

静儿时尚达人 浏览 77

中国女子赴美见男网友失联 女儿担心其遇到"可怕的事"

新民周刊 浏览 86516

多基金公司接到股债恒定ETF系统改造要求 新产品最快或于11月上报

财联社 浏览 1509

拜登告诉波兰总统:我想给自己姓氏后加“斯基”

环球网资讯 浏览 94693

特朗普:取消与普京在布达佩斯的会面

央视新闻客户端 浏览 883

王思聪生日许愿“赚大钱”,00后新女友卖货,王健林还缺多少钱?

金融八卦女 浏览 12956

詹姆斯谈保罗退役:希望他能好好享受最后的赛季,他已无遗憾

懂球帝 浏览 396

维拉已放弃买断桑乔!曼联若解约多特或引进,只会免费签约不给钱

罗米的曼联博客 浏览 684

2024上半年评分最低的6部剧,如果你一部没看,那就成功避雷

不八卦会死星人 浏览 10970

小米汽车直播间遭网暴,仅剩一家门店直播,雷军抖音账号半个月掉粉30万

红星资本局 浏览 985
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1