关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元945人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

TVB明星待遇：梁朝伟化妆要排队，视帝不能迟到，对比内娱太讽刺

文艺圈娱乐号浏览 12968

见过大世面的女人不会打扮得花里胡哨

一只可可浏览 16340

92岁默多克又交新女友！外媒曝女方为邓文迪闺蜜

盖饭娱乐官方号浏览 14801

精彩推荐

队报：奥纳纳是在政治压力下重返喀麦隆国家队

直播吧浏览 12530

斯基拉：后卫卡尔斯多普将在今夏离开罗马

懂球帝浏览 10885

马绩效：尤文对皇马机会多但把握差，很难说这就是积极的表现

懂球帝浏览 863

付笛生儿子在欧洲演出！夫妻俩打扮朴素甜蜜约会

盖饭娱乐官方号浏览 14865

自阿里以来，特尔是英超对阵曼联进球最年轻的热刺球员

懂球帝浏览 649

印度阵风又被击落，为啥法国战机如此不堪？

售价为2990元，别克E4哆啦A梦主题套件上市

天天汽车浏览 12409

52岁男星赔了3.8亿！沉迷炒币不愿脱身，网友直言很难有好下场

萌神木木浏览 994

韩国大学发现：AI注意力头演化出推理能力

科技行者浏览 820

俄军称再拿下哈尔科夫地区一村庄

每日经济新闻浏览 10827

普里戈任坠机身亡俄学者：这是乌克兰今年的主要成就

新京报外事儿浏览 84701

最快2025年上市索尼与本田将联手打造三款新车

乐选爱车浏览 12239

泽连斯基接受采访期间马林斯基宫两度停电俄官员回应

环球网资讯浏览 619

春季不知道穿什么？参考这24套穿搭示范，舒适、清新、简约

静儿时尚达人浏览 12541

以色列摩萨德指挥官遭枪杀，据猜测或与伊朗核科学家之死有关

趣看热点浏览 25839

百亿之后，珀莱雅失速

斑马消费浏览 1003

AI“既帮助好人也帮助坏人”，变革浪潮下大模型有这些阴暗面

第一财经资讯浏览 15511

女子和33名男子开房：为还300万债务出卖肉体

汉史趣闻浏览 94178

汪小菲晒儿子正面照

古希腊掌管月桂的神浏览 1067

年薪超百万，京东开始挖汽车人！

电动知家浏览 973

版博会观察：冰箱贴凭啥成文创顶流？AI+版权如何焕新意？

南方都市报浏览 965

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1