关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者683人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

意天空:德布劳内至少伤缺3-4个月,需决定手术还是保守治疗

懂球帝 浏览 768

胡塞武装称若加沙停火破裂将恢复袭击以色列

极目新闻 浏览 643

李施嬅困局:被有毒关系猎杀的富家女

仙女事件簿 浏览 761

科大讯飞不能错过大模型

晚点LatePost 浏览 14717

杜兰特至少降薪4000万美元?高管建议火箭最多2年8000万与他续约

罗说NBA 浏览 939

航母“弹射三连”释放哪些信号

经济日报 浏览 1514

萧敬腾公布与经纪人恋情 自曝求婚成功

网易娱乐 浏览 16061

一周前还参会的"老虎"任上落马 下属曾遭黑社会殴打

中国新闻周刊 浏览 92830

詹俊:你对去年世界杯阿澳之战印象最深的一幕?对今晚有啥期待?

直播吧 浏览 15899

雄安新区党工委书记张国华已任河北省政协党组书记

上观新闻 浏览 74623

犯罪团伙大胆却“业余”,珠宝黑市隐蔽且暴利,FBI前探员拆解卢浮宫劫案

环球网资讯 浏览 904

无人驾驶在困境中前行,Sora能否带来新希望?

百姓评车 浏览 12373

普京接见朝鲜外务相 双方讨论了"敏感领域"合作问题

参考消息 浏览 78196

乌情报高官:未来几天将对克里米亚发动更多袭击

澎湃新闻 浏览 14760

西班牙将向乌提供巨额军援 该国外援史上前所未有

参考消息 浏览 11021

“钢铁大亨”投资“口罩大王”,两个月浮盈近10亿

侃见财经 浏览 717

吕海涛回归神龙出任总经理 合资老将掌舵转型深水区

网易汽车 浏览 804

俄称在多个方向推进 乌称多地遭空袭

极目新闻 浏览 834

李嘉诚坐私人飞机现身杭州,派头十足获众人接机

娱乐团长 浏览 16436

李念挺3胎孕肚参加香港阔太聚会 已怀孕8个月

云图娱乐 浏览 19124

恭喜,40+的她终于被拉下神坛

独立鱼 浏览 12822
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1