爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

新年第一周，...

＂最强大脑＂...

上汽大众首款...

美国纽约市长...

普通人真该看...

AI带货“躺...

200多斤小伙落水漂浮7小时钱塘江大潮来临之际获救

田震国籍争议再发酵：明星养病选国外总造质疑

NYU研究揭示：模型宽度与能力非线性相关

美经济学家：所谓对伊开战有利美国经济十分荒谬

18岁少年鳌太线失联超10天搜救队再次进山展开搜救

著名音乐人何厚华英年早逝：终生未婚

7天吸金36亿，合肥冲击“新能源汽车之都”，汽车产业高速发展伴随“阵痛”

女生显老又土气的5款发型，真的别留了！

匿名者向五角大楼捐赠1.3亿美元支付政府停摆期间美军薪资

关婷娜十大惊艳片段，成熟女人的魅力

20名以色列被扣押人员将分两批获释

纯电续航超400公里，上汽大众全新大型增程式SUV ID.ERA 9X申报

王心凌吴克群暧昧19年爆热恋1年内飞4地约会

女友BELLA+封面 | aespa GISELLE：以努力为名的青春

27岁清华学霸，空降掌舵腾讯AI

霍英东体育基金会晚宴，多位奥运冠军现身，霍家更知郭晶晶的份量

AI正在成为“孤独止痛药”，这是社交能力的一场不可逆退化

“纸质书+VR”开启科普新形态《寻梦天宫：中国空间站建设纪实》在京发布

特朗普发布“致命打击”画面委内瑞拉：美国不宣而战

香港火灾已致超40人遇难 3名工程负责人涉＂误杀＂被捕

短剧要翻拍《新英雄本色》，短剧一哥刘萧旭主演，海报有内味儿

陈浩民夫妇滞留阿联酋妻子：人生第二次收到轰炸警报

联想moto X70 Air手机现身：5.3mm超薄机身+159g轻盈重量

或2026年发布全新大众T-ROC R渲染图曝光