爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

半个娱乐圈为...

FIBA3x...

51岁领导认...

朝鲜晚上举行...

巴基斯坦总理...

NASA收获...

甘肃地震兰州震感明显的哥收留满月宝宝在车内取暖

楼市回暖贝壳伤寒

美国国会最新AI规则：除付费版ChatGPT外不得使用其他产品

针织+半裙，秋天最经典搭配，好看又减龄！

气质穿搭看杨采钰法式复古风格轻熟优雅

华为：HarmonyOS 5终端设备数量突破2000万台

“V领毛衣”今年秋天爆火！知识分子风、老钱风都少不了它

铁！北京本场三分20中3 赛季首次连续两战三分命中率不足20%

王嘉尔再惹争议：环抱女网红和男子在酒吧显亲昵

音悦台要回归了？官方透露：很快就要内测

59岁蒋雯丽现状让人心酸，一代女神也落寞了？

胡杏儿官宣怀三胎愿望成真，三胎梦想与原生家庭有关

五粮液能“平替”茅台？

天兵科技就火箭坠落致歉：受损居民都赔偿

年内上市/纯电和增程可选阿维塔07实车谍照曝光

查尔斯加冕礼，阿黛尔等歌星以档期为由拒绝献唱

“老司机”丰田，给新造车上一课

推广|| 用了好几年才推荐，这件单品真的值得投资

淘特回应团队大部分人员合并到淘宝：业务有调整，不会并入淘宝

拜登为何卸任前如此“恶毒”？

媒体:＂火车控＂拜登去基辅前向俄国发了条＂调度令＂

海关总署：全面暂停进口日本水产品

王菲携女儿回国聚会：剪短发瘦得惊人李嫣像妈妈

穆勒：对阵巴黎会尝试干扰姆巴佩索默在这里很舒服我们信任他