关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2593人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

AMD ROCm 软件堆栈更新至 7.0.2 版本,支持 Radeon RX 9060 显卡

IT之家 浏览 2881

俄总统助理:俄方移交1003具乌军士兵遗体

新华社 浏览 1952

特朗普试图重建长期关税壁垒 民主党将阻止

华尔街见闻官方 浏览 976

高圆圆、宋佳、陈妍希最近美出圈!她们的穿搭普通人也可以借鉴

LinkFashion 浏览 1482

民营航天新年首战告捷:星河动力谷神星一号海上成功发射四星入轨

澎湃新闻 浏览 1625

巴媒质问:忘恩负义的阿富汗是否正成为印度代理人

澎湃新闻 浏览 7156

全网爆火的“鲨鱼裤”太丑了!巨显腿粗!

Yuki女人故事 浏览 2771

创维抄袭格力,为何低级得如此赤裸裸?

正经社 浏览 1603

华为商城Mate 60/Pro系列配件一折促销,9.9元买官方保护壳

IT之家 浏览 2465

蔚来李斌:“降低事故率”和“使用时长”是衡量智驾能力的核心指标

澎湃新闻 浏览 3370

天空:联赛杯新规出台,塞门约可出战纽卡斯尔

懂球帝 浏览 1681

等折叠屏iPhone要再熬两年?郭明錤称恐缺货至2027年

环球网资讯 浏览 1954

福特在华渠道大整合,能否激发出新动力?

禾颜阅车 浏览 2651

以军打死数十名哈马斯指挥官 特朗普:应该的

每日经济新闻 浏览 2578

NVIDIA团队发明超高效视频生成黑科技:让4K视频制作速度提升15倍

科技行者 浏览 2680

百度再战高德,还拉来了两大“帮手”

螺旋实验室 浏览 2809

妈妈辈如何穿出“贵气感”?4个打扮习惯,轻松提升优雅气质

静儿时尚达人 浏览 2763

“我们已无路可退”,AI架构师被评为《时代》杂志年度人物

观察者网 浏览 2104

美职联官方列足坛历史助攻榜:梅西距历史第一只差4次

懂球帝 浏览 2385

美防长突然召回全球数百名美军将领开会 细节披露

环球网资讯 浏览 3353

有望明年初亮相 小米YU9假想图曝光

车质网 浏览 2280
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1