关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013429人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

太阳报:曼联预计未来几周官宣前往沙特踢季中赛

懂球帝 浏览 3423

农夫山泉的冰杯,比哈尔滨冰雪大世界的冰还赚钱?

BT财经 浏览 2683

意大利比萨大学:让AI神经网络高效处理信息的新技术ParalESN

科技行者 浏览 2445

猛龙7人上双四杀老鹰:巴恩斯18+8+10 杰伦13+14+7+6失误

醉卧浮生 浏览 2762

9月中级车市场洗牌,新能源新兵为何也栽了跟头?

百姓评车 浏览 3746

球报总监:穆帅执教切尔西和皇马时不这样,带曼联之后就变了

懂球帝 浏览 2437

双星名人创始人父子决裂 父亲称被儿子扣工资借钱维生

极目新闻 浏览 9992

郭晶晶也没想到 霍启刚香港火灾后 实现口碑暴增

桑葚爱动画 浏览 3195

阿特金森:艾伦犯规多打乱了乱换布置,我会鼓励米切尔多冲筐

懂球帝 浏览 291

下一代丰田GR卡罗拉或搭全新2.0T四缸发动机

车质网 浏览 3549

D系列首款产品 零跑D19将于12月28日上市

车质网 浏览 3000

嫂子发文承认曾和顶流在一起,还好聚好散?

仙女事件簿 浏览 2258

打造全球好物“首发首秀地”,东方购物白玉兰直播间首度亮相第八届进博会

上观新闻 浏览 2871

新势力洗牌激烈:零跑、华为双雄争霸 方程豹斗败“蔚小理”

道哥说车 浏览 3168

卢伟冰公布小米17 Ultra手机首张样片

IT之家 浏览 2987

29岁国乒老将临危受命?淘汰黄友政状态回暖 锁世界杯后冲世乒赛

颜小白的篮球梦 浏览 1823

林永健批顶流进组带编剧乱改戏,网友总结合作演员,成毅被质疑

萌神木木 浏览 3846

新华社权威快报|中国第42次南极考察队从上海起航

新华社 浏览 3506

特朗普试图重建长期关税壁垒 民主党将阻止

华尔街见闻官方 浏览 2051

或叫欧拉5?欧拉全新SUV要来了!

车叫兽 浏览 4487

18.68万起!新款小鹏G7/P7+增程版上市

网易汽车 浏览 2747
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1