爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

马斯切拉诺：...

Motif发...

中年女人穿对...

2026年新...

热搜上消失的...

媒体人：国足...

50+女人别穿得“老气横秋”！掌握3个穿搭密码，减龄又优雅

跨军种联合直击空军航空兵直升机海上着舰训练

长沙女子双节返程发现母亲在大米里藏了1000元现金

豪华平权大6座SUV 风云T11预售19.99万元起

上汽零售赶超比亚迪

众星在大S雕像前拍照，小S双手合十感谢外界，悼念致辞全场哽咽

Intel大小核根本停不下来！甚至要做“统一核心”

艾科维曾通过外部客户转贷逾千万元两家“0人”供应商合计撑起超五千万元采购额

海南封关，就能半价买豪车了？

百年固特异的中国未来

全国第二个提前还债的省份，出现在西部

53岁蔡少芬累到虚脱 15岁就开始为母还债好辛苦

暴涨的白银有色，白银竟是地名！股民懵逼

特朗普：将取消一些制裁以平抑国际油价

点一桌子菜只吃几口，39岁杨幂揭开内娱现状，没胃口更没活人感

美防长被指佩戴与俄国旗颜色一致领带引猜测万斯回应

E句话| 《繁花》剧组又回应了？

媒体：美国解除对白制裁系大国格局中精心策划的变动

伊姐周日热推：电视剧《重影》；电视剧《山河枕》......

美H-1B签证申请费猛增至10万美元印度政府发出警告

荣耀“既Pro又Air”新机设计线稿首曝

日首相官邸官员表示：日本应该拥有核武器

支付宝下架首页AQ广告，回应“内斗”传闻，网友：感觉就是一场营销

奔驰2026年大动作: 推15款新车 AI智舱/智驾将覆盖全系产品