关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012480人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

豪华平权大6座SUV 风云T11预售19.99万元起

网易汽车 浏览 2836

上汽零售赶超比亚迪

大象新闻 浏览 1683

众星在大S雕像前拍照,小S双手合十感谢外界,悼念致辞全场哽咽

萌神木木 浏览 1418

Intel大小核根本停不下来!甚至要做“统一核心”

快科技 浏览 930

艾科维曾通过外部客户转贷逾千万元 两家“0人”供应商合计撑起超五千万元采购额

金证研 浏览 2805

海南封关,就能半价买豪车了?

汽车公社 浏览 1999

百年固特异的中国未来

网易汽车 浏览 1827

全国第二个提前还债的省份,出现在西部

时代周报 浏览 3473

53岁蔡少芬累到虚脱 15岁就开始为母还债 好辛苦

疯说时尚 浏览 2269

暴涨的白银有色,白银竟是地名!股民懵逼

财通社 浏览 1496

特朗普:将取消一些制裁 以平抑国际油价

环球网资讯 浏览 681

点一桌子菜只吃几口,39岁杨幂揭开内娱现状,没胃口更没活人感

萌神木木 浏览 1707

美防长被指佩戴与俄国旗颜色一致领带引猜测 万斯回应

环球时报新闻 浏览 7626

E句话| 《繁花》剧组又回应了?

仙女事件簿 浏览 2458

媒体:美国解除对白制裁 系大国格局中精心策划的变动

上观新闻 浏览 14833

伊姐周日热推:电视剧《重影》;电视剧《山河枕》......

伊周潮流 浏览 2244

美H-1B签证申请费猛增至10万美元 印度政府发出警告

澎湃新闻 浏览 20007

荣耀“既Pro又Air”新机设计线稿首曝

IT之家 浏览 1739

日首相官邸官员表示:日本应该拥有核武器

澎湃新闻 浏览 11574

支付宝下架首页AQ广告,回应“内斗”传闻,网友:感觉就是一场营销

红星资本局 浏览 2691

奔驰2026年大动作: 推15款新车 AI智舱/智驾将覆盖全系产品

网易汽车 浏览 1688
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1