关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3775人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印欧达成自由贸易协定

国际金融报 浏览 2471

熊园:“十五五”GDP目标——怎么定、定多少?

首席经济学家论坛 浏览 3740

特朗普寻求加快大型电力项目,以满足AI需求

华尔街见闻官方 浏览 4295

突发!茅台真的换帅了

财通社 浏览 3599

王大陆离奇“闪兵”案,搞垮半壁台娱圈

仙女事件簿 浏览 2978

42岁刘翔近况曝光

姩姩有娱 浏览 3413

特斯拉2025年交付量跌逾8%至164万辆

澎湃新闻 浏览 2710

懒懒陪王思聪低调过38岁生日,晒甜蜜日常

丁丁鲤史纪 浏览 2716

广东佛山路边停车为收费出"奇招" 车主吐槽:吃相难看

中国新闻周刊 浏览 6887

伊朗外长:利用阿联酋发动攻击“完全不可接受”

国际在线 浏览 1647

北京农商银行新掌门人落定,新帅首次亮相

湘财Plus 浏览 2349

短剧男主遇上长剧男主,谁是天然帅哥谁是滤镜美男,差距一目了然

娱乐圈笔娱君 浏览 3247

全球牛肉“通胀”,中国市场价格为何“独稳”

北京商报 浏览 3477

TA:告别全白球衣,阿森纳将在足总杯第3轮穿回传统红白球衣

懂球帝 浏览 2747

权力重构?泽连斯基亲信部队高层遭反腐

浏览 6658

台湾教授苑举正痛心疾首:赖清德称"终战"是愚不可及

大象新闻 浏览 9082

文班亚昕就这?前三节仅1分末节刷到7分 生日夜仍被杜锋战略冰封

颜小白的篮球梦 浏览 2935

特斯拉前全球销售主管爆猛料

电动知家 浏览 3029

车企“灵魂论”彻底“失声”?

盖世汽车 浏览 4280

腾讯集团高级副总裁郭凯天:坚持智能向善,构筑人与AI的信任机制

上游新闻 浏览 3516

泰柬在13条战线上交战 泰总理:愿意接听特朗普电话

环球网资讯 浏览 3040
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1