关闭广告

复旦大学等顶尖高校联手研发:AI模型学会像侦探一样使用工具

科技行者2467人阅读


这项由复旦大学、同济大学、新加坡国立大学、华盛顿大学、电子科技大学以及香港中文大学联合开展的研究发表于2026年1月,论文编号为arXiv:2601.18631v1,为多模态大语言模型的工具使用能力带来了重大突破。

现代人工智能模型就像是刚学会看图识字的学生,虽然能够理解图像内容,但在面对需要多步推理的复杂视觉任务时往往力不从心。比如让AI规划一条从起点到终点的安全路径,既要避开障碍物,又要找到最短路线,或者让AI完成拼图游戏,需要理解图像的整体结构和局部细节。这些任务对人类来说相对简单,但对AI来说却是巨大挑战。

正如人类在遇到超出自身能力的问题时会借助工具一样,研究团队提出了一个革命性的想法:让AI模型学会主动使用各种视觉工具来解决复杂问题。这就好比教会一个学生不仅要会做题,还要知道什么时候该用计算器,什么时候该用尺子,什么时候该用放大镜。

研究团队开发的AdaReasoner系统就像是培养了一位经验丰富的侦探。这位AI侦探不仅具备基本的观察能力,更重要的是,它学会了在破案过程中灵活运用各种侦查工具。当遇到需要精确定位的线索时,它会使用"放大镜工具";当需

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

还是这些穿搭适合秋天!衣服多穿一下“基础款”,百搭又舒适

静儿时尚达人 浏览 3805

“比特币富婆”钱志敏在英国认罪,6.1万枚比特币市价已达493亿元,赃款归谁?

红星新闻 浏览 3535

三瑞智能实控人一股独大,国泰海通前员工火速入职,子公司与大客户疑似“隐秘关联”|读懂IPO

时代周报 浏览 2776

贝莱林:温格视足球为艺术,阿尔特塔和他就如同一枚硬币的两面

直播吧 浏览 4309

王中磊夫妇转战短视频,影视一哥到底怎么了?

BT财经 浏览 2506

恩里克:我们在23分钟内丢了3个球?那是对手球员的实力所致

懂球帝 浏览 3719

华尔街主流投行也要参与!高盛CEO称正在探索预测市场机会

华尔街见闻官方 浏览 2593

上海交大突破:单一AI模型实现全视觉创作任务

科技行者 浏览 2728

美经济学家:所谓对伊开战有利美国经济十分荒谬

国际在线 浏览 1057

罗马诺:切尔西接近聘请前利物浦球探总监戴夫-法洛斯

懂球帝 浏览 3617

外媒:卢浮宫失窃珠宝现身黑市 窃贼提议在暗网交易

环球网资讯 浏览 9450

A股总市值接近109万亿元,2026年开启全面牛市需要具备哪些条件?

郭施亮 浏览 2464

一辆小米SU7 Ultra飞坡10多米翻滚多圈!车主发文:感谢雷军,下辆还买!

扬子晚报 浏览 3097

厦门翔安:侨商越海疆 展翼共翱翔——一场以侨为桥招商大会背后的千亿机遇

中国商报 浏览 2568

卡内基梅隆大学打造"神经侦探":让AI像破案一样学会理解语音

科技行者 浏览 2754

白山云霍涛:智能体时代,信任是比体验更高的「生死壁垒」

节点财经 浏览 2625

奇瑞瑞虎9家族全面上市 抢鲜价12.79万起

网易汽车 浏览 4321

何超莲再破天花板 让窦骁和豪门圈“沉默”了?

东方不败然多多 浏览 3180

博主:咪咕要求CBA独家版权并介意和担心抖音介入,但篮协主张非独家

懂球帝 浏览 2976

美国首批UFO文件发布,大量照片文档“此前从未公开”

观察者网 浏览 229

安踏投资加速,主品牌却有些掉队了

36氪财经 浏览 2581
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1