关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013434人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英伟达向CoreWeave追加投资20亿美元,首推独立CPU芯片

华尔街见闻官方 浏览 2492

最高续航430km 五菱缤果S置换补贴价6.38万起

网易汽车 浏览 4251

Pro or Ultra:消息称 iQOO 15 确定会有高配版,目前还在打磨中

IT之家 浏览 3680

众泰汽车重组出现变数?

车业杂谈 浏览 2468

中国最北端宜家即将闭店 东三省仅剩辽宁有宜家可逛

极目新闻 浏览 8495

热火106-103险胜雄鹿取6连胜,希罗29+5+7,阿德巴约17+11

懂球帝 浏览 3165

21岁韩乒一姐状态下滑?混双+女单皆不敌33岁老将 韩媒:极易崩盘

颜小白的篮球梦 浏览 3777

记者:联赛结束后海港队的人就说过,申花队要买拉斐尔-拉唐

懂球帝 浏览 2540

留几手维护闫学晶翻车!嘲讽短视频用户自卑又敏感,网友呼吁封号

萌神木木 浏览 2629

做好服务的老国货们,率先进入顺风局

财经无忌 浏览 2562

泰军摧毁6个柬埔寨诈骗基地 称要斩断跨国犯罪根源

扬子晚报 浏览 2985

春天第一条裙子,这么穿!

黎贝卡的异想世界 浏览 1835

假期4大变量共振 哪些是A股正向催化剂?

财联社 浏览 2072

劝中国原谅日本的黄循财被扒出家族史 祖父靠日军吃饭

博览历史 浏览 7948

《小城大事》主演爆雷!校园霸凌致女生精神分裂

萌神木木 浏览 2628

香港著名女星,为照顾儿子淡出娱乐圈

秋枫凋零 浏览 2605

猫头鹰联手Prusa推出经典棕色、米色3D打印PLA耗材

IT之家 浏览 3107

美国发射洲际弹道导弹 俄方回应

央视新闻客户端 浏览 3450

《爸爸去哪儿》村长李锐,52岁签迪拜12亿大单

草莓解说体育 浏览 3888

2天挨4 针,韩国皮肤科,挤满“特种兵医美”的中国人

每日人物 浏览 3155

古二反击《繁花》!新录音曝光打脸秦雯,业内直言压榨新人是常态

萌神木木 浏览 3717
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1