关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2594人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

天数智芯成功登陆港股 四川资本赋能国产算力新突破

封面新闻 浏览 1668

警方通报荣梓杉李禹熹纠纷

韩小娱 浏览 2492

世间只此一次,《西厢记》4K默片配乐来了!

幕味儿 浏览 2693

俄外交部否认俄韩秘谈朝核问题

新华社 浏览 1884

奔驰誓言守护V12引擎,将继续推出十二缸车型

MOTO 浏览 3474

"四无公司"申领超100万生育保险:15名员工中13人生育

澎湃新闻 浏览 21637

熊园:9月进出口均走高的背后

首席经济学家论坛 浏览 2775

邓卓翔:球员状态并不让人满意,技战术也没有可圈可点的地方

懂球帝 浏览 2455

羊绒专场|| 如果秋冬只买一件针织衫,我一定毫不犹豫选它(已穿上)

黎贝卡的异想世界 浏览 4318

出轨、送女友进大牢,退圈四年后霍尊再度复出

除夕烟火灿烂 浏览 2043

海尔集团与蚂蚁集团签署全面战略合作协议 聚焦数字支付与医疗健康

财闻 浏览 2870

哈梅内伊次子接任伊朗最高领袖:一直身居幕后

极目新闻 浏览 708

商务部公告附件首次改为wps格式 此前多为doc或pdf

上游新闻 浏览 2873

梅德维德夫晋级中网男单八强

体坛周报 浏览 3285

金价算是彻底失控!不是因为涨到1000多,那些回收店排起了长队…

火山诗话 浏览 2747

一车三动力:五菱星光730电/油/插混动力配置公布,10月15日预售

IT之家 浏览 2881

国米客战那不勒斯:劳塔罗搭档博尼,德布劳内、巴雷拉出战

懂球帝 浏览 2608

兄弟获180万拆迁款被控敲诈勒索 原村官:举报我贪污

极目新闻 浏览 6896

又见天价离婚,冻结上市公司股权34亿!

诗与星空 浏览 2852

中国斡旋泰柬停火后又单独援助柬方 鲁比奥作奇怪表态

时时有聊 浏览 23531

小米REDMI Turbo 5 Max手机“续航耐力赛”直播战报出炉

IT之家 浏览 1627
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1