关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者670人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

成龙满嘴谎话?却被兄弟公开指责吝啬人品差?

小娱乐悠悠 浏览 1036

队记:惠特摩尔可能很难立刻获得机会 他预计会去毒蛇队锻炼

直播吧 浏览 15418

实拍轰-6K开舱投弹瞬间

环球网资讯 浏览 18514

62岁何赛飞的“真实”,让多少明星“无地自容”

可乐谈情感 浏览 848

夏季首选“T恤+直筒裤”,简约不挑人

男士穿衣搭配杂志 浏览 16985

E句话| 白姐从不爆假料?

仙女事件簿 浏览 690

售32.99万起 2026款岚图梦想家正式上市

网易汽车 浏览 1702

邮报:英超裁判主管霍华德-韦伯因当值裁判误判向狼队道歉

直播吧 浏览 14443

今年秋天一定要拥有的10件单品,时髦又高级!

LinkFashion 浏览 1024

科曼:让贝尔温首发是希望他在内线有更多移动

懂球帝 浏览 10410

媒体:中美俄同一天都有重大发布 情况罕见

上观新闻 浏览 92836

杨紫琼带小金人为父扫墓 手持香烛鞠躬显虔诚

网易娱乐 浏览 19803

6款“花小钱办大事”的新能源SUV,看上去很贵,实际花不了多少钱

二师兄玩车 浏览 12281

魏晋贵族为什么把厕所装修得特别豪华?魏晋是中国历史上最黑暗的年代

趣看热点 浏览 25814

特朗普发布“致命打击”画面 委内瑞拉:美国不宣而战

上观新闻 浏览 1614

以驻英大使提及加沙遭轰炸:美国二战时也曾轰炸日本

环球时报新闻 浏览 73760

26岁甜美女星自曝去看妇科被男医生骚扰!直呼:超想吐、超可怕

文艺圈娱乐号 浏览 12889

BBC:今年王毅外长记者会只有两个问题由欧美记者提出

环球时报国际 浏览 83171

环球:中国防长访俄 西方媒体急着找出"非常规信号"

环球网资讯 浏览 116223

福建4名干部落水失联 无人机发现1具疑似失联人员遗体

上游新闻 浏览 115469

他俩谈恋爱?全网磕爆了!

仙爷种草机 浏览 16773
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1