爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

这才是值得7...

为何说南海仲...

美众院通过所...

邱礼涛，为香...

环球：对外关...

宝马历史上最...

看来看去还是这些穿搭舒适！深浅互补、多穿阔腿裤，简约自然

斯基拉：马竞计划买断冈萨雷斯，费用为3200万欧+100万欧奖金

刘捍东被查：在南京工作超40年多名前下属接连落马

美专家：乌军春季反攻可能是美国和北约的死亡陷阱

国安机关对相关企业公开执法外交部回应

黄晓明否认与Angelababy离婚，他们的婚姻状况一直备受大家关注

李永吉任朝鲜人民军总参谋长

户外品牌除了炸山就没有出路了吗？

交锋升级，贝弗利再diss特雷-杨：你是擅长得分助攻，但你是数据刷子

政策利率带动LPR下行，存量房贷下调空间大

售36.58万/3月交付 MG Cyberster四驱红篷版上市

台媒：赖清德向美国表忠心其作为或连美国人都不接受

中科大团队开发新型暖白光LED，最大发光效率接近理论水平

那英将缺席上海音浪音乐节演出：因身体欠佳请辞

沪指4000点临门一脚，与十年前有何不同？豆包AI这样回答

俞敏洪要凑钱给董宇辉在北京买房？董宇辉调侃：老头骗我好几次了

拉夫罗夫被指＂地位下降＂克宫否认其与普京关系紧张

预售35万起小鹏X9增程版终结MPV续航焦虑

俄称已控制红军城和沃尔昌斯克

阿里云盘宣布个人主页动态、订阅服务预计3月15日下线

戈登左脚严重扭伤，魔术多名核心球员遭遇伤病

英媒：英国正考虑对华科技投资限制已在咨询相关意见

刘亦菲与45岁霍建华船戏吸睛，强吻、摸胸肌，这剧的尺度可真带劲

新能源车用途再次拓展反向给电网充电能赚差价