关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12508人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宋祖儿背31万奢侈包逛街遭遇路人直指“偷税”,淡定自若成焦点

文艺圈娱乐号 浏览 10978

华为广汽新车明年6月上!任正非建议品牌名,徐直军参与造型评审

车东西 浏览 888

能否挑战 19 万美元纪录?罕见4GB未拆封初代苹果iPhone再次拍卖

IT之家 浏览 11493

线上社区“联洋人家”开启

上观新闻 浏览 952

外媒:俄军订购中国SUV当指挥车,还部署到了纳卡

环球军事时报 浏览 26808

氛围感帅哥,都梳起了小辫儿?

YOKA网 浏览 13340

第37届电影百花奖来了,看完提名名单,我要说:内娱影坛要完了!

娱乐圈笔娱君 浏览 10806

以总理称"不考虑停火" 美英等国或在加沙组成多国部队

红星新闻 浏览 80587

"北大女生自杀案"宣判:男友犯虐待罪被判三年二个月

京法网事 浏览 91250

“大佬”纷纷出山,新基金“抄底季”有了“主心骨”?

华尔街见闻官方 浏览 12862

上海一女子5万元买劣质茶叶 被"踢"出厂家"高端"群聊

上游新闻 浏览 68079

比卢普斯律师声明:他是个正直的人,不会用自己的名誉冒险

懂球帝 浏览 874

AI泡沫争议再起!多位顶尖大咖PK,这次有何不同?

21世纪经济报道 浏览 598

男子跑朋友房间找烟在床底摸到1只冰手 掀开床板懵了

社会奇闻君 浏览 117778

俄罗斯一军火库发生爆炸,爆炸碎片最远可波及20公里内区域

趣看热点 浏览 26028

26分大胜!湖人痛宰勇士 詹皇19+6库里16+7格林伤退

网易体育 浏览 26472

伊朗情报部长:伊成功渗透以色列核研究设施

每日经济新闻 浏览 1501

阿维塔求变:抱紧华为、告别个性走向大众

经济观察报 浏览 386

“强制接管”, 西方这是明抢了?

观察者网 浏览 1019

布林肯再次对胡塞武装放“狠话”

环球网资讯 浏览 12795

女友BELLA+封面 | SUPER JUNIOR 东海:感性诗人与舞台的热恋

伊周潮流 浏览 1859
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1