关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者1638人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:放弃全球霸权 背叛美国的美国已不再自信

南风窗 浏览 6965

格陵兰岛称选择丹麦和欧盟 已准备好迎接更大规模军事存在

国际在线 浏览 1509

3D唇妆风好大,人类对唇线笔的开发不足1%

时尚COSMO 浏览 2207

球迷态度:中越大战安东尼奥大胆变阵,U23国足能否再创历史?

懂球帝 浏览 1594

冬季穿衣千万别花枝招展,这些基础穿搭,越简单才越高级耐看

静儿时尚达人 浏览 1558

快手全员发开工红包:正式员工366元

三言科技 浏览 968

小米汽车560平米超大商超体验店开业

CAR路里 浏览 2585

45岁董洁北京定居,自己洗衣做饭很勤劳

无处不风景love 浏览 2418

63岁的吴镇宇刷老年卡坐公交被质疑?

今古深日报 浏览 2461

苹果发布iPhone 17e

澎湃新闻 浏览 811

国星宇航“星算”计划 02 组星座发布

IT之家 浏览 2810

马塞洛:当年觉得皮克是个自以为是的蠢货,太烦人了

懂球帝 浏览 2838

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

静儿时尚达人 浏览 2502

先锋来袭 丰田卡罗拉概念车新车图解

车质网 浏览 845

今年冬天最流行的4组叠穿,让你美出新高度!

LinkFashion 浏览 1914

知情人士:特朗普政府拒绝与伊朗启动停火谈判

国际在线 浏览 500

特朗普:以色列与哈马斯签署"20点计划"第一阶段协议

央视新闻客户端 浏览 2352

被张坤抛弃,又一巨头跌懵了!

财经锐眼 浏览 1430

鲁比奥宣布任命新任美"西藏特别事务协调员" 中方回应

扬子晚报 浏览 37347

牛弹琴:“可怜”的泽连斯基 又被特朗普“戏弄”了

上游新闻 浏览 8613

格陵兰岛"任何情况下都不接受美接管"

新京报 浏览 1643
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1