关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101745人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以总理称"不考虑停火" 美英等国或在加沙组成多国部队

红星新闻 浏览 80561

中菲磋商南海问题 中方还就涉台问题提出严正交涉

新京报 浏览 78741

金正恩指导朝鲜洲际弹道导弹发射 女儿陪同观看

澎湃新闻 浏览 19335

开年首周88只基金换将 过去三年基金经理变更频繁

证券时报 浏览 12944

"不要国王"抗议席卷全美 特朗普发布AI视频回应

看看新闻Knews 浏览 5484

互黑式宣发:赵丽颖、黄晓明互动

孟一宜 浏览 777

前方超A!新趋势“黑道千金风”来了

FashionWeek 浏览 19417

2名医疗器械中层菲律宾遇害,背后上市公司已成“仙股”

野马财经 浏览 10813

重庆工厂被曝16.2亿出售,北京现代正加速新能源转型

时代周报 浏览 12693

外交部回应"中俄元首会晤会否涉及援助"提问

环球网 浏览 19346

李亚鹏海哈金喜离婚早有预兆!女方无意说漏嘴,婚姻不能只有爱情

萌神木木 浏览 1004

17年的双十一底层逻辑变了?“小时达”来了,AI帮你选品

时代周报 浏览 622

美政府"关门"将结束 民主党8人倒戈加入共和党人行列

红星新闻 浏览 31463

专家:高市早苗跟台湾关系较密切 会让大陆比较担忧

澎湃新闻 浏览 4009

今年冬天最流行的4组叠穿,让你美出新高度!

LinkFashion 浏览 533

4大最新信号!出手“黄金坑”的机会来了?

小白读财经 浏览 933

CES"节目单"出炉,小心苹果、OpenAI“抢风头”

财联社 浏览 13007

激动!李靓蕾称与王力宏美国官司胜诉

文艺圈娱乐号 浏览 16676

朱民解读硅谷银行破产:金融市场逻辑发生根本变化

网易财经智库 浏览 19795

领导为什么不自己写材料?

识局 浏览 687

晕了晕了!机构大动作调仓,55只行业主题ETF被疯狂扫货,而热门的半导体竟被悄然抛售

每经牛眼 浏览 633
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1