关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12512人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大S律师首次发声,怒斥张兰:过分到连鬼都害怕的程度!

缘木不求娱 浏览 12546

辛巴公司被罚90万,其公司旗下主播账号全部被封停

趣看热点 浏览 26136

群兴玩具实控人配合公安协助调查,公司或因民事纠纷易主

览富财经网 浏览 11105

智己汽车被“幼稚的”软件bug绊了一跤

市界 浏览 12911

事实证明,35岁的赵丽颖,已活成了一个“符号”

皮皮电影 浏览 16579

投资者情绪低迷 上证报:要有买在"无人问津处"的勇气

政知新媒体 浏览 77982

小米汽车订单回收价跌至2000元 两月前曾溢价2万

鲁中晨报 浏览 4809

争夺女性用户,李想抢不过雷军

字母榜 浏览 1003

这一天,坐在陈宝国身边的刘德华,展现了他在内娱的江湖地位

不八卦会死星人 浏览 12447

白宫官员:俄罗斯军队指挥链没有发生任何变化

环球网资讯 浏览 15650

特朗普"力挺"中国 高市闯祸能否拥有核武日本说了不算

空天力量 浏览 37921

韩媒:因违规收集用户信息被罚1000亿韩元,谷歌、Meta不服裁决提起诉讼

界面新闻 浏览 18935

品牌旗下首款纯电SUV Jeep Wagoneer S先行版发布

网易汽车 浏览 11299

特朗普称批准韩国建造核潜艇

澎湃新闻 浏览 754

车企“灵魂论”彻底“失声”?

盖世汽车 浏览 1430

币圈再度血流成河!比特币6月以来首次跌破10万大关,以太币暴跌10%

华尔街见闻官方 浏览 697

苹果iOS、谷歌 Android 系统将面临英国更严格反垄断审查

IT之家 浏览 871

女子感染艾滋后自愈,艾滋病在不久的将来或有望被攻克

趣看热点 浏览 416964

专家:敏感时刻俄核演习展示肌肉 发出强烈威慑信号

澎湃新闻 浏览 857

里夫斯咋没消息?湖记:他们还在等报价 球队提供了4年5200万合同

直播吧 浏览 15342

马斯克发文否认自己吸毒:按NASA要求进行药物测试

手机中国 浏览 12530
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1