关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013426人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美经济学家:所谓对伊开战有利美国经济十分荒谬

国际在线 浏览 1058

18岁少年鳌太线失联超10天 搜救队再次进山展开搜救

红星新闻 浏览 9074

著名音乐人何厚华英年早逝:终生未婚

历来纵横 浏览 4197

7天吸金36亿,合肥冲击“新能源汽车之都”,汽车产业高速发展伴随“阵痛”

红星资本局 浏览 3602

女生显老又土气的5款发型,真的别留了!

Yuki女人故事 浏览 3750

匿名者向五角大楼捐赠1.3亿美元 支付政府停摆期间美军薪资

澎湃新闻 浏览 3544

关婷娜十大惊艳片段,成熟女人的魅力

喜欢历史的阿繁 浏览 4377

20名以色列被扣押人员将分两批获释

CCTV国际时讯 浏览 3756

纯电续航超400公里,上汽大众全新大型增程式SUV ID.ERA 9X申报

IT之家 浏览 2705

王心凌吴克群暧昧19年爆热恋1年内飞4地约会

小霍霍 浏览 2404

女友BELLA+封面 | aespa GISELLE: 以努力为名的青春

伊周潮流 浏览 3671

27岁清华学霸,空降掌舵腾讯AI

深蓝财经 浏览 2875

霍英东体育基金会晚宴,多位奥运冠军现身,霍家更知郭晶晶的份量

不八卦会死星人 浏览 2994

AI正在成为“孤独止痛药”,这是社交能力的一场不可逆退化

虎嗅APP 浏览 2717

“纸质书+VR”开启科普新形态 《寻梦天宫:中国空间站建设纪实》在京发布

封面新闻 浏览 2812

特朗普发布“致命打击”画面 委内瑞拉:美国不宣而战

上观新闻 浏览 4436

香港火灾已致超40人遇难 3名工程负责人涉"误杀"被捕

界面新闻 浏览 28589

短剧要翻拍《新英雄本色》,短剧一哥刘萧旭主演,海报有内味儿

最爱酷影视 浏览 3805

陈浩民夫妇滞留阿联酋 妻子:人生第二次收到轰炸警报

极目新闻 浏览 37633

联想moto X70 Air手机现身:5.3mm超薄机身+159g轻盈重量

IT之家 浏览 3809

或2026年发布 全新大众T-ROC R渲染图曝光

车质网 浏览 3432
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1