关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3539人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

投资人接连上门!肿瘤科研成果用于皮肤修复,重庆这家公司成立一年估值3亿

时代周报 浏览 3660

第138届广交会10月15日开幕,约3600家企业首亮相,首设智慧医疗专区

红星资本局 浏览 3798

曝涉案俱乐部罚分不降级 国安名宿上禁足名单 苏宁名将或就此退役

我爱英超 浏览 2480

爸爸是国家一级演员,他36岁靠《四喜》红了

睿鉴历史 浏览 3034

《我不是药神》原型陆勇时隔5年重返印度

红星新闻 浏览 7472

西媒:巴萨2019年违规接触格子,可能构成管理不善和账目造假罪

懂球帝 浏览 3735

在生活的沟壑里,为自己镶嵌星光

LinkFashion 浏览 3637

决胜盘落后顽强逆转!奇纳四进挑战赛决赛终夺冠,迎生涯新突破

网球之家 浏览 1959

毛茸茸的冬天,毛孩子们都在想什么?

时尚COSMO 浏览 3131

比亚迪连续4个季度超越特斯拉

大象新闻 浏览 3695

预售31.98万起 吉利银河V900即将上市

网易汽车 浏览 2602

今年冬天一定要拥有的6件衣服,谁穿谁好看!

LinkFashion 浏览 3037

港台影视圈已经没有“小花”了

仙女事件簿 浏览 3528

世乒赛男团:国乒3-0横扫韩国队,柳承敏&马龙等乒坛名宿现场观赛

乒谈 浏览 234

吉林长春中东新天地购物公园:丰富多元体验 焕新商业地标

中国商报 浏览 2939

苹果预计今年不会发布标准版 iPhone 18 推迟到 2027 年

威锋网 浏览 2733

郑爽广电封禁通知曝光!日子久了都忘了她多恶劣

萌神木木 浏览 2139

TCL科技110亿元收购LG Display中国业务

三言科技 浏览 3815

星途七年七换帅,高管动荡魔咒如何破?

电动势 浏览 3734

以色列的新常态:创伤、分裂与集体错觉

澎湃新闻 浏览 3779

德转预热拉什福德新一期身价:最低可能跌至3000万欧

懂球帝 浏览 4369
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1