关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012481人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“半固态”出局!中国制定全球首个固态电池国标

界面新闻 浏览 1800

赵樱子回应与张康乐绯闻:我提过人一个名字吗?

韩小娱 浏览 2547

才播6集热度破8900,悬疑剧有天花板了

娱乐圈笔娱君 浏览 2465

俄乌“和平计划”又生变 欧洲“强有力”回应特朗普批评

环球网资讯 浏览 2117

累瘫?三战全打满40分钟 从40+9到11+5失误 黑龙江女战神也顶不住

颜小白的篮球梦 浏览 2708

普京签署法律修订兵役法:征兵工作将全年不间断进行

界面新闻 浏览 7123

以后请叫甄子丹为超级丹

港剧叔 浏览 2951

演讲遭抗议 以总理下令:"黑"进加沙手机 用扩音器直播发言

红星新闻 浏览 3380

记者:阿布拉汗应该是河南第一签,阿奇姆彭难留

懂球帝 浏览 1727

霸王茶姬创始人维权案将于3月开庭,公司回应:为反击此前涉婚姻、创业的诸多谣言

红星资本局 浏览 1598

40岁的他,是世界徒手攀岩第一人,也是风险管理大师|中企荐读

中国企业家杂志 浏览 1430

“复古知识分子风”正流行,这5件单品谁穿谁时髦!

LinkFashion 浏览 1989

小米汽车超级工厂供应商,斯坦德机器人赴港IPO|港E声

时代周报 浏览 1703

球报总监:穆帅执教切尔西和皇马时不这样,带曼联之后就变了

懂球帝 浏览 1465

H-1B签证费涨至10万美元 分析人士:将重创美科技行业

财联社 浏览 19789

老实人狂野起来 卡罗拉概念车拒当“买菜车”

网易汽车 浏览 2519

《御赐小仵作2》空降续集开播!最新口碑出炉,观众评价一针见血

娱乐圈笔娱君 浏览 1647

沙特被指立场转变:美若不打击伊朗 会让其变得更大胆

澎湃新闻 浏览 5893

卢卡申科:俄现在和过去都有打击泽连斯基某一官邸能力

鲁中晨报 浏览 17218

对话 vivo OS 产品副总裁:AI 不会产生新的需求,通往远方是马车还是蒸汽机是产品形式问题

爱范儿 浏览 2784

今秋这件“瘦瘦衫”必穿!巨in巨洋气,上身瘦十斤!

Yuki女人故事 浏览 3572
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1