关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12511人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美专家:乌军春季反攻可能是美国和北约的死亡陷阱

看看新闻Knews 浏览 120994

国安机关对相关企业公开执法 外交部回应

环球网 浏览 116456

黄晓明否认与Angelababy离婚,他们的婚姻状况一直备受大家关注

趣看热点 浏览 27416

李永吉任朝鲜人民军总参谋长

环球网 浏览 14883

户外品牌除了炸山就没有出路了吗?

诗与星空 浏览 867

交锋升级,贝弗利再diss特雷-杨:你是擅长得分助攻,但你是数据刷子

懂球帝 浏览 1680

政策利率带动LPR下行,存量房贷下调空间大

华夏时报 浏览 16304

售36.58万/3月交付 MG Cyberster四驱红篷版上市

网易汽车 浏览 12672

台媒:赖清德向美国表忠心 其作为或连美国人都不接受

直新闻 浏览 121386

中科大团队开发新型暖白光LED,最大发光效率接近理论水平

DeepTech深科技 浏览 12521

那英将缺席上海音浪音乐节演出:因身体欠佳请辞

网易娱乐 浏览 14910

沪指4000点临门一脚,与十年前有何不同?豆包AI这样回答

每经牛眼 浏览 822

俞敏洪要凑钱给董宇辉在北京买房?董宇辉调侃:老头骗我好几次了

每日经济新闻 浏览 19011

拉夫罗夫被指"地位下降" 克宫否认其与普京关系紧张

红星新闻 浏览 5883

预售35万起 小鹏X9增程版终结MPV续航焦虑

网易汽车 浏览 688

俄称已控制红军城和沃尔昌斯克

国际在线 浏览 289

阿里云盘宣布个人主页动态、订阅服务预计3月15日下线

IT之家 浏览 11123

戈登左脚严重扭伤,魔术多名核心球员遭遇伤病

趣看热点 浏览 25785

英媒:英国正考虑对华科技投资限制 已在咨询相关意见

看看新闻Knews 浏览 92745

刘亦菲与45岁霍建华船戏吸睛,强吻、摸胸肌,这剧的尺度可真带劲

肆季娱乐 浏览 11207

新能源车用途再次拓展 反向给电网充电能赚差价

车市红点 浏览 12351
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1