爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

美特使被指教...

瞄准2028...

巴西永久撤回...

小S曝具俊晔...

全智贤新剧跌...

造议员假丑闻...

欧阳娜娜怎么不算“审美天才”少女

毛衣+衬衫、夹克+裙子，今年秋天最流行的4组搭配，时髦又减龄！

女生最显土的3个冬天发型，真的别留了！

扛住了央视镜头的赵今麦，扛得住半高马尾吗？

国家统计局：6月上旬生猪价格环比持平

萨哈：桑乔是曼联最失败的引援之一，他觉得自己凌驾于教练之上

克洛普：瓜迪奥拉让我变得更好，面对他我战绩不错但不知如何发生

中纪委＂三连发＂三＂虎＂同日被开除党籍

传苹果Vision Pro正运往美国分销仓库，为2月开售做准备

钟丽缇3个女儿太会长，大女儿性感，二女儿高级，小女儿最像妈

她曾追求刘德华至家破人亡,如今怎么样了

罗斯回归尼克斯，自爆此前缺阵是因为自己与家人感染新冠

没买的再等等！特斯拉称Model Y今年不改款，为保销量只能降价？

媒体:中方对菲船只的行动安排精妙美想帮忙没理由

乌克兰：大量哥伦比亚人参与对俄作战

吉尔贝托：枪手要给道曼提供支持，不要给他施加太多的压力

原小鹏智驾灵魂人物吴新宙在英伟达职位确认，任自动驾驶产品主管

持续对抗缠斗＂万吨大驱＂南昌舰曾有力回击外军挑衅

除了卖汽水，这家外资巨头还在中国修飞机、开医院丨国是访问

从难从严！看海军航空兵冰海搜救演练

爆笑佳作入围戛纳，这是真正属于影迷的电影

老里弗斯：我们不会去想前两年的G5 那毫无意义

恒大汽车执行董事刘永灼被刑拘！半月前曾公开露面

耶伦：美国经济已实现软着陆悲观情绪是毫无依据的