爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

阿斯报：若报...

真情侣就是好...

21-14，...

汤唯最刻骨铭...

以军称开始重...

郝蕾风波升级...

多名陌生男子闯入室内后59岁住户坠亡嫌犯取保候审

布林肯最新表态：仍期待＂在条件成熟时＂访问中国

西芒杜铁矿石准备装船，榨取中国钢企利益的时代该结束了

普里戈任同意停止行动普京感谢卢卡申科所作工作

太阳5人15+力克湖人升至西部第2 勒布朗38+5+6

董宇辉带货华为一夜卖了上亿

记者：加拉塔萨雷租借恩东贝莱达协议，选择买断费1500万欧

这条裙子，今年悄悄火遍全网，冬天穿好有氛围

“私拆承重墙”通报：房东物业从重按上限处罚！248套房均未发现结构构件受力裂缝，修复后可满足安全使用要求

马德兴：汪士钦落选是因为熊猫杯引发舆情，于金永身体不适

大哥承诺每月给1万养家费小弟把事扛了入狱发现被耍

7家茅台冰淇淋旗舰店暂停营业？门店回应：正常营业中，小程序无法下单

就业网站Indeed数据：美国10月职位空缺跌至2021年2月以来最低

宁波象山沿海进行军事演练禁止驶入

张家界荒野求生热门选手退赛连下一周雨致腿部冻伤

亚洲杯假球？日本故意放水：低级失误丢球，坑惨中国女足，太难了

中国防长对“以台制华”发出警告

马克龙：“法国希望击败俄罗斯”！俄罗斯怒了

赖清德为遭美方冷遇辩解声称＂疑赖论＂是大陆宣传

如果你已过了40岁，这3个穿搭小心机值得参考

乌官员：修复卡霍夫卡水电站大坝至少需要5年时间

被说成“智商税”的眼霜，有必要买吗？

我，天权，让东方甄选掉粉70万，老俞让我提前复播

人脸识别技术的“边界”究竟在哪？