爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

我佛了…克莱...

法国任命最年...

对阵纳什维尔...

“得黄金ET...

赵丽颖直播太...

主打前卫科技...

昊铂HT2024款亮相粤港澳车展公布昊铂智驾早鸟计划

不穿内衣到底有多爽，谁懂啊？

会打扮的女人有多美？看她们不穿老年装，不披头散发，美到骨子里

大S律师首次发声，怒斥张兰：过分到连鬼都害怕的程度！

辛巴公司被罚90万，其公司旗下主播账号全部被封停

群兴玩具实控人配合公安协助调查，公司或因民事纠纷易主

智己汽车被“幼稚的”软件bug绊了一跤

事实证明，35岁的赵丽颖，已活成了一个“符号”

投资者情绪低迷上证报：要有买在＂无人问津处＂的勇气

小米汽车订单回收价跌至2000元两月前曾溢价2万

争夺女性用户，李想抢不过雷军

这一天，坐在陈宝国身边的刘德华，展现了他在内娱的江湖地位

白宫官员：俄罗斯军队指挥链没有发生任何变化

特朗普＂力挺＂中国高市闯祸能否拥有核武日本说了不算

韩媒：因违规收集用户信息被罚1000亿韩元，谷歌、Meta不服裁决提起诉讼

品牌旗下首款纯电SUV Jeep Wagoneer S先行版发布

特朗普称批准韩国建造核潜艇

车企“灵魂论”彻底“失声”？

币圈再度血流成河！比特币6月以来首次跌破10万大关，以太币暴跌10%

苹果iOS、谷歌 Android 系统将面临英国更严格反垄断审查

女子感染艾滋后自愈，艾滋病在不久的将来或有望被攻克

专家：敏感时刻俄核演习展示肌肉发出强烈威慑信号

里夫斯咋没消息？湖记：他们还在等报价球队提供了4年5200万合同

马斯克发文否认自己吸毒：按NASA要求进行药物测试