关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者693人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

更动感/7月全球上市 新款宝马3系/M3系列官图发布

网易汽车 浏览 11009

意天空:德布劳内至少伤缺3-4个月,需决定手术还是保守治疗

懂球帝 浏览 780

双十一特惠5折,双厨狂喜:智本社X财新

智本社 浏览 787

深入落实习惯过紧日子要求 财政支出聚焦四大领域发力

南方都市报 浏览 12821

国亮新材IPO:行业产能过剩、竞争对手强大,未来发展出路在哪里

览富财经网 浏览 711

科创板IPO半年报:海通证券保荐募资额居首

财联社 浏览 15145

媒体:西班牙可以思考下 为何胡塞武装不袭击中国船只

新民周刊 浏览 73258

普京穿军装看俄白军演:试戴热成像战术眼镜 装填手枪

新京报 浏览 1445

林青霞晒与杨紫琼合照 感慨今年春天特别美好

网易娱乐 浏览 19988

特朗普对关税态度大转弯 扔出三个条件请求中方答应

时时有聊 浏览 6206

蓄发哥开始重新等待五连胜,阿莫林:希望他能尽快剪掉头发

懂球帝 浏览 693

申万宏源:2025年科技牛只是小菜,2026年下半年将迎来全面牛

金石随笔 浏览 558

泽连斯基:乌克兰度过了一个“非常艰难”的冬天

环球网资讯 浏览 19221

胡杏儿晒全家福为次子庆生,Ryan徒手抓蛇超勇敢

娱絮 浏览 15682

鸭脖不香了?卤味巨头们去年业绩齐跌,绝味食品筹划赴港上市

证券时报e公司 浏览 19344

把连衣裙穿得美的女人,从来都不简单

世界音乐公号 浏览 19970

加入快车道!来无锡“太湖杯”一同奔跑

DeepTech深科技 浏览 16150

这是我见过最优雅的女人,穿衣不花哨、不油腻,50岁也很高级

静儿时尚达人 浏览 12915

赵露思方起诉恶意P图表白肖战的网友,曾因该事遭受网络暴力

趣看热点 浏览 26117

刚刚!利好突袭,直线爆拉!

中国基金报 浏览 787

他陪了林青霞21年,眼睁睁看着她嫁给别人

二妹扯娱 浏览 821
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1