关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2774人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

版博会观察:冰箱贴凭啥成文创顶流?AI+版权如何焕新意?

南方都市报 浏览 2686

Perplexity Comet浏览器iOS版发布,AI驱动超厉害!

IT之家 浏览 688

Altman放话:2028年,超级智能将超越人类

钛媒体APP 浏览 931

蔚来法务部回应遭网络侵权:已报案并获法院判决支持

智车情报局 浏览 2727

辽宁晋级四强发布会!杨鸣满意全队专注,展望四强不留余力拼广东

篮球资讯达人 浏览 2362

范曾与女儿、继子断绝关系 其与妻子新公司本月刚成立

红星新闻 浏览 18835

男子应聘船员出海严重晕船自缢:一吃就吐 甚至用头撞墙

极目新闻 浏览 7902

《树影迷宫》给10位演员演技排个名

皮皮电影 浏览 2464

影石们找到了“活人感”

字母榜 浏览 1899

哈马斯宣布将解散加沙政府机构 并准备移交管理权力

国际在线 浏览 1673

AI会取代考古学家吗?在这场沙龙中窥见人工智能对文保利用的影响

封面新闻 浏览 2729

哈马斯称将把加沙地带行政控制权移交临时委员会

环球网资讯 浏览 2564

阿卡小遇波折三盘晋级,战袍意外陷争议:像根大葱还是致敬费德勒

网球之家 浏览 1600

隆基Hi-MO X10“三防”组件荣获权威检测证书

人民网 浏览 3418

美联储降息25基点 预计2026年降息一次

网易财经 浏览 2050

市场监管总局发文禁止亏本卖车!比亚迪北汽响应

明镜pro 浏览 2070

特朗普证实:已授权中情局行动

澎湃新闻 浏览 2780

泰晤士:主场不敌西汉姆联,热刺正在考虑解雇主帅弗兰克

懂球帝 浏览 1561

蜜雪冰城开卖啤酒:价格5.9元至14.9元不等 只能外带

极目新闻 浏览 6819

马切吉亚尼:迈尼昂扑点的秘诀是米兰的门将教练菲利皮

懂球帝 浏览 2483

性价比最高的MacBook来了!苹果把iPhone处理器塞进笔记本里

快科技 浏览 2709
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1