关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101756人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

东方美打败所有风格,成为今冬最火!

小西的穿搭日记 浏览 13382

特步公主与七匹狼公子婚礼细节披露:每桌最高9999元

每日经济新闻 浏览 68031

特朗普:空管员不返岗就扣薪 建议停摆期未请假者奖钱

鲁中晨报 浏览 29237

张家界荒野求生赛剩1名女选手:瘦得判若两人 称想吃肉

现代快报 浏览 7420

1.2亿辆车被召回,超半数源于监管调查,车企自查缺陷就这么难?

DearAuto 浏览 871

瑞银和瑞信合并后将是什么样?

第一财经资讯 浏览 18611

首搭纯电quattro 奥迪E5 Sportback售23.59万起

网易汽车 浏览 1701

美舰过航台湾海峡 解放军全程跟踪监视

东部战区 浏览 11979

山东海阳老人扎堆领结婚证现场挤满人 有村庄包车去办

极目新闻 浏览 6917

体制内的男生已经不受欢迎了?

识局 浏览 10927

这五十岁的“天仙”,越熟越有味道

扒圈818 浏览 15705

《让子弹飞》开机前的第9天,导演姜文大发雷霆,“老四”一角迟迟没有找到合适的演员

趣看热点 浏览 26529

硬派SUV新选择,深蓝318谍照曝光

天天汽车 浏览 12645

专属30+帅气基本款

瑞丽伊人风尚 浏览 20015

记者:两名西班牙外籍助教已抵达天津,今天赴海口与津门虎队会合

直播吧 浏览 12798

美国军舰再度擅闯南沙群岛,南部战区时刻保持高度戒备状态

趣看热点 浏览 26137

女佣自杀,最贵凶宅诞生!许家印好牌友要吐血

说财猫 浏览 1009

一纸公告,暴涨91%!

证券时报e公司 浏览 10953

俄称击退乌军解围行动 乌称击退俄军进攻

国际在线 浏览 556

Sam Altman中国对话全文

品玩 浏览 16362

王菲有多美?93年她和朱茵合影,那年24岁,气质非凡,清冷脱俗

温柔娱公子 浏览 11066
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1