关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12496人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

扛住了央视镜头的赵今麦,扛得住半高马尾吗?

ELLE世界时装之苑杂志 浏览 19537

国家统计局:6月上旬生猪价格环比持平

国家统计局网站 浏览 16396

萨哈:桑乔是曼联最失败的引援之一,他觉得自己凌驾于教练之上

直播吧 浏览 12565

克洛普:瓜迪奥拉让我变得更好,面对他我战绩不错但不知如何发生

直播吧 浏览 12093

中纪委"三连发" 三"虎"同日被开除党籍

上观新闻 浏览 6231

传苹果Vision Pro正运往美国分销仓库,为2月开售做准备

IT之家 浏览 12754

钟丽缇3个女儿太会长,大女儿性感,二女儿高级,小女儿最像妈

不八卦会死星人 浏览 12635

她曾追求刘德华至家破人亡,如今怎么样了

除夕烟火灿烂 浏览 844

罗斯回归尼克斯,自爆此前缺阵是因为自己与家人感染新冠

趣看热点 浏览 25409

没买的再等等!特斯拉称Model Y今年不改款,为保销量只能降价?

小李车评李建红 浏览 12401

媒体:中方对菲船只的行动安排精妙 美想帮忙没理由

直新闻 浏览 14817

乌克兰:大量哥伦比亚人参与对俄作战

每日经济新闻 浏览 714

吉尔贝托:枪手要给道曼提供支持,不要给他施加太多的压力

懂球帝 浏览 1051

原小鹏智驾灵魂人物吴新宙在英伟达职位确认,任自动驾驶产品主管

界面新闻 浏览 14546

持续对抗缠斗 "万吨大驱"南昌舰曾有力回击外军挑衅

环球网 浏览 73300

除了卖汽水,这家外资巨头还在中国修飞机、开医院丨国是访问

国是直通车 浏览 653

从难从严!看海军航空兵冰海搜救演练

环球网资讯 浏览 18934

爆笑佳作入围戛纳,这是真正属于影迷的电影

幕味儿 浏览 703

老里弗斯:我们不会去想前两年的G5 那毫无意义

直播吧 浏览 18511

恒大汽车执行董事刘永灼被刑拘!半月前曾公开露面

中新经纬 浏览 12992

耶伦:美国经济已实现软着陆 悲观情绪是毫无依据的

财联社 浏览 73936
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1