关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101761人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

MSC咨询合伙人金霞:可持续发展+AI,重构商业增长范式

南方都市报 浏览 729

甘比打扮潮流去做义工!化浓妆戴墨镜耕田挖萝

文艺圈娱乐号 浏览 12837

李璇:三镇开出国内球员顶薪与邓涵文续约,但没能续约成功

懂球帝 浏览 220

库里:我不怕投关键球 基于我付出的努力我应该得到信任

直播吧 浏览 14810

60+女人,秋天穿衣“上紧下宽”,不紧绷、不暴露,优雅年轻

静儿时尚达人 浏览 992

全网爆火的“鲨鱼裤”太丑了!巨显腿粗!

Yuki女人故事 浏览 1063

夏尔巴向导证实两男子为救人放弃登顶 未要求救援酬金

上观新闻 浏览 92071

五分钟搞定早八妆,你需要知道这些

VOGUE中国 浏览 15136

重塑豪华标杆 全新长轴距奔驰E级河南上市

小号撩车 浏览 12663

太难了!2023年中型轿车销量榜出炉,国产车前10仅一席排第9

阿贵看车 浏览 12823

花一个月工资买节日礼物,值吗?

时尚COSMO 浏览 237

俄国家航天集团公布“月球-25”号探测器拍摄的照片

新京报 浏览 14532

她们说这才是秋天最实用的单品!6种穿法都帮大家总结好了

黎贝卡的异想世界 浏览 733

一辆小米SU7 Ultra飞坡10多米翻滚多圈!车主发文:感谢雷军,下辆还买!

扬子晚报 浏览 948

解放军组织轰炸机编队位南海例行巡航

界面新闻 浏览 565

福田冲击高端皮卡市场失败的原因是什么?

郑谊 浏览 12104

湖南女子与3名镇干部在水库夜泳溺亡 官方成立调查组

界面新闻 浏览 84472

争议!名博怒斥NBA裁判,剧本化太严重:热火赢球拖入天王山

天涯沦落人 浏览 16643

鹏华基金,也亏麻了

包不同 浏览 12977

全新奥迪A6L实车:外观大变样轴距超3米,带智能辅助驾驶小蓝灯?

Nice好车 浏览 1045

北约下周军演 将模拟可能动用核武器场景

界面新闻 浏览 1013
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1