关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2640人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刘嘉玲问刘晓庆:现在接戏的角色是否有限?

红星新闻 浏览 3823

一夜之间,矛盾又升级了!

米筐投资 浏览 3699

妻儿三人被丈夫发小杀害:空调开16℃ 地上没有血迹

红星新闻 浏览 8288

穆西亚拉庆祝梦幻回归

绿茵情报局 浏览 2668

空乘穿毛衣上班被吐槽“很土” 山东航空回应

大风新闻 浏览 9656

新质生产力“可感可及”,华强北机器人展演月“硬核度”爆表

南方都市报 浏览 4270

萧美琴在欧洲议会大楼参加会议并讲话 外交部回应

澎湃新闻 浏览 8883

斯坦福突破:机器人实现视频动作到真实操作迁移

科技行者 浏览 2721

冲破十万大关的乐道,能否成为蔚来的“翻身之牌”?

禾颜阅车 浏览 3619

视频:特朗普公布击沉"运毒潜艇"画面

新华国际 浏览 2731

定义豪华越野中国标准,2025纵横之夜暨G700预售发布会盛大开启

梅卿快车道 浏览 4609

用AI布阵遭解雇?前西班牙队主帅:假的,我没这么干

体坛周报 浏览 2560

43天内两度被约谈引关注,携程的奔跑与隐忧

天下财道社 浏览 3694

红旗首款越野车征名送车

大象新闻 浏览 3753

300135前三季度由盈转亏!池州国资入主后大动作,沥青龙头跨界投资半导体

时代周报 浏览 3723

娜扎《玉茗茶骨》解锁国风新体验

呱田里的猹 浏览 2662

以军攻势升级 加沙两天内超4万人流离失所

澎湃新闻 浏览 4502

火箭惨遭雷霆双杀!杜兰特23中7申京两双 亚历山大连续112场20+分

罗说NBA 浏览 2625

ED网红病,正在掏空年轻女性

她刊 浏览 1019

一张图理清:美国抓捕委内瑞拉总统马杜罗始末

看看新闻Knews 浏览 2709

国内首个海上可复用火箭基地开工 发射成本对标SpaceX

澎湃新闻 浏览 12921
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1