关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012477人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刘浩存的天终于亮了,张艺谋当初真的没有骗我们

小先生笔记 浏览 3045

阿森纳1月最佳候选:哲凯赖什、苏比门迪、热苏斯、马丁内利

懂球帝 浏览 1418

慕尼黑车展折射中欧车企博弈

盖世汽车 浏览 3559

“六小龙”齐聚乌镇背后:前沿技术已经“飞入寻常百姓家”

贝壳财经 浏览 2536

2000万美元重注强脑科技,三七互娱落子脑机接口新纪元

钛媒体APP 浏览 2459

《繁花》声明翻车!官微开始紧急删评,主演胡歌唐嫣等全被牵连

萌神木木 浏览 2418

AI 接管手机这事儿,豆包能干成么?

钛媒体APP 浏览 2153

围巾,女人气质的延伸

Yuki女人故事 浏览 2341

德转预热拉什福德新一期身价:最低可能跌至3000万欧

懂球帝 浏览 3397

狗仔曝司晓迪靠代付过活,加一起才962块,狗仔被网友骂到破防!

萌神木木 浏览 1723

Win10用户纷纷转向Linux!Zorin OS称72%新下载来自Windows

快科技 浏览 2706

以色列的新常态:创伤、分裂与集体错觉

澎湃新闻 浏览 2821

摩根大通一线调研:微软领先所有人至少10光年,生态整合能力非常强大!

华尔街见闻官方 浏览 1668

中国女足在进攻三区传球成功率仅为64%,为四强球队中最低

懂球帝 浏览 552

清华大学推出RLinf-VLA:让机器人在虚拟世界中自学成才的新框架

科技行者 浏览 2494

郝蕾风波升级!被扒曾参演《狂野时代》闹掰,辛芷蕾发声打脸她

萌神木木 浏览 2461

半个娱乐圈为肖战包场,《得闲谨制》票房走俏,侯鸿亮鞠躬致谢

娱乐圈笔娱君 浏览 2119

张维伊把婚房订成三人间,董璇直接傻了眼

烟云过眼 浏览 3141

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 2595

白俄女子被骗到缅北 家属被告知其器官被摘除遗体火化

红星新闻 浏览 7757

迈瑞医疗市值跌了三千亿,第三次上市,74岁李西廷越来越忙

懂财帝 浏览 2822
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1