爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

浙江男子全款...

你是真狠啊！...

全新MG4、...

十三届全国人...

坏消息！美国...

李湘首晒英国...

石破茂讲话让高市早苗恼羞成怒：不知道他在说什么

张艺谋新片《狙击手》定档7月30日，网友直呼拍片子的速度很快

稳坐第一！中国造船拿下全球7成订单连续三月超越韩国

广东河源发掘33枚恐龙蛋化石，馆藏数量再创新纪录

姚明回应上海队和江苏队消极比赛：十分痛心

消息称三星下半年推出Vision Pro竞品，搭载XR2 Plus Gen 2

“女足活力玫瑰课堂”走进乡村校园，刘青、李琳等球员参与

航拍画面披露：日本被指昼夜赶建军事基地

迪士尼，10亿美元投资OpenAI

媒体：理想合并零售与交付两大部门全力卖车

俄官宣“末日鱼雷”完成核动力试验

北向资金三季度持仓曝光：宁德市值第一，京东方A获增持股数最多

爆火的“表演饭”，开始被年轻人避雷

官方：31岁巴西中场杜黄轩获得越南国籍，1月可为越南队出战

拒绝对涉案做出反省内塔尼亚胡请求特赦遭强烈抗议

王家卫持续被扒

华谊兄弟策划师王天也酒后殴打三名民警获刑一年

法国又乱了：一晚上667人被捕华人社区俨然如战场

消失8年，她一回归又是王炸

西贝的新考题：如何券后留客

“合肥系”国资出手，投入超29亿元现金，要拿下显示屏巨头控制权！

多方猛料爆出！苹果据悉将“大砍”明年Vision Pro产量

法拉第未来 Super One 迈入批量试制及生产阶段

印尼总统：已准备好向加沙派遣维和部队