关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者673人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

记者:利物浦没有准备为姆巴佩报价3亿欧,相关行动均被淡化

直播吧 浏览 15457

万科与万达集团翻脸!10亿元纠纷冻结千亿股权?

金融界 浏览 16718

“合肥系”国资出手,投入超29亿元现金,要拿下显示屏巨头控制权!

每日经济新闻 浏览 633

宋志平:加强五种能力建设,全面提高上市公司质量

中国企业家杂志 浏览 19433

俄总统特别代表:已向美方通报“海燕”核动力导弹试射情况

极目新闻 浏览 808

视频:特朗普公布击沉"运毒潜艇"画面

新华国际 浏览 794

投篮能力去哪了?浓眉19-20赛季命中72记三分 此后共77记

直播吧 浏览 12049

“苏超”MVP范厚泰:感恩亚泰,感恩泰州,感恩“苏超”平台

懂球帝 浏览 681

特斯拉Model Y国内交付时间延长到2-6周

界面新闻 浏览 15788

蔚来ET5T暗影套装限定版上市 售价31.6万元

车质网 浏览 961

女人到了60岁穿衣得体显得年轻!这些穿搭不容错过,自然又简单

静儿时尚达人 浏览 11032

双十二惊现多名盗版范冰冰直播恰饭,带货能力惊人

趣看热点 浏览 27606

境外网友发图称福建舰甲板裂缝 美智库驳斥

环球网资讯 浏览 15935

许家印出事前,只有他提前果断脱离恒大,至今毫发无损

壹只灰鸽子 浏览 752

荷兰政府对闻泰科技安世半导体下手 中资股权仅剩1股

蓝鲸新闻 浏览 991

“中国建议”在达沃斯受欢迎

环球时报国际 浏览 12634

乌方将向美提交新20点和平计划 泽连斯基表态

财联社 浏览 81

外观设计微调/功能升级 新款山海T2将于四季度上市

网易汽车 浏览 1526

英媒:索斯盖特一定会带上帕尔默,但球员的场上位置尚未确定

懂球帝 浏览 11056

又要造手机?罗永浩AR公司新增多个经营项目

大象新闻 浏览 12125

卡内基梅隆大学团队揭秘:AI绘画无需人工标注也能学会"听话"

科技行者 浏览 689
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1