关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101758人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

邮报:利物浦前员工涉及多年球票欺诈勾结黄牛牟利,审判已开始

懂球帝 浏览 765

蔚来四季度盈利的底气,到底是什么?

21世纪经济报道 浏览 843

Tiktok在美再遇围剿?弹窗动员1.7亿用户反击,电话轰炸国会办公室

蓝鲸财经 浏览 12003

哈马斯与法塔赫将在俄罗斯讨论组建巴政府

央视新闻客户端 浏览 11974

新款比亚迪夏限时19.68万起售!上车天神之眼B激光版,支持城市NOA

车东西 浏览 680

中国使出大招 全世界嘲笑美:终于中国出来收拾美国了

南宫一二 浏览 5162

宋仲基官宣妻子产下男婴 晒父子牵手照

扒虾侃娱 浏览 16131

这么穿,还怕十里没“桃花”?

芭莎男士 浏览 19803

60岁阿姨靠穿搭火了!“简约款”穿出高级感,自然老去也很美

静儿时尚达人 浏览 1010

Nuance Audio创新助听眼镜中国首秀,既能看清又能听清

文汇报 浏览 639

泽连斯基的冬天:美乌军事策略似乎出现分歧

金羊网 浏览 13225

自称快19岁女子诞下女婴被医生违规抱养 医院5人被罚

大风新闻 浏览 5172

亚冠精英实时积分榜:申花升至第6跻身晋级区,成都第9,海港垫底

懂球帝 浏览 868

曾被吹上天,如今却“沦为笑柄”的4个羽绒服,看谁还在乱跟风?

潮人志Fashion 浏览 13024

内娱抄了他20年,这回终于赢了

独立鱼 浏览 19020

六台:马竞认为巴萨无力支付小蜘蛛的转会费,计划围绕其建队

懂球帝 浏览 198

卢卡申科讲述调停瓦格纳事件内幕

参考消息 浏览 15652

魔咒!曼联8战利物浦不胜1-18 穆鸟被打下课 滕哈赫最后1场?

念洲 浏览 12961

开完"告别酒会"70岁萨科齐下周入狱 或住进9平米单间

上观新闻 浏览 6356

安琪酵母投15亿元补产能缺口

北京商报 浏览 423

章子怡带儿子现身阿那亚游玩 获大老板陪同排场大

柒佰娱 浏览 14525
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1