关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3541人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

合富中国的六连板“泡沫”

北京商报 浏览 3518

短期内可生产大量武器级钚 专家分析日本暗藏“核武野心”

环球网资讯 浏览 3246

曝涉案俱乐部罚分不降级 国安名宿上禁足名单 苏宁名将或就此退役

我爱英超 浏览 2482

谷歌推出开源全栈NPU新架构,旨在实现大模型在终端的低功耗运行

DeepTech深科技 浏览 3705

从轿车变成MPV? 雷克萨斯LS概念车正式发布

网易汽车 浏览 3513

王楚钦低调现身演唱会!全场观众疯狂尖叫

小椰的奶奶 浏览 4326

郝蕾澄清亲口澄清:压根不是说她

ETtoday星光云 浏览 3110

雷军在京喊话:共同抵制网络水军、黑公关

大象新闻 浏览 3742

为内卷止损,为长钱布局!2026两会为金融发展划重点

独角金融 浏览 1767

“这条围巾”才是今年的顶流单品,时髦的女人都有它

LinkFashion 浏览 3472

黄慧颐自曝锤保剑锋内情!举报账号投资被撤,一条活路都没给她留

萌神木木 浏览 2519

不去掉这一点,贾国龙就赢不了罗永浩

振华观史 浏览 3667

时隔25年,上一个时代的“英伟达”终于涨回来了

华尔街见闻官方 浏览 2966

对阵纳什维尔3球1助,梅西达成连续17年上演帽子戏法成就

懂球帝 浏览 3144

官宣!这座“一线”省份,继续力挺省会

西部城市 浏览 3592

最圆最近!年度超级月亮今晚登场

封面新闻 浏览 3477

丰田"世极"正式独立 全新概念车剑指劳斯莱斯

网易汽车 浏览 3592

陈乔恩带老公和父母聚餐,Alan负责拍照

黄谋仕 浏览 2728

奔驰2026年大动作: 推15款新车 AI智舱/智驾将覆盖全系产品

网易汽车 浏览 2693

窦泽成下赛季重返美巡赛

体坛周报 浏览 3714

普京警告欧洲勿阻挠和谈:如果欧洲想打 我们准备好了

澎湃新闻 浏览 2941
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1