关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12506人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

智能体验持续进化,路特斯再迎OTA升级

天天汽车 浏览 12513

石破茂发表战后80年"个人见解" 专家:需要政治勇气

环球网资讯 浏览 1069

桑托斯3-1科林蒂安,罗埃塞点射破门,巴雷亚尔传射

懂球帝 浏览 1061

俄白联合军演两名美军军官"意外现身" 白俄防长:可随意参观

环球网资讯 浏览 1661

那英将缺席上海音浪音乐节演出:因身体欠佳请辞

网易娱乐 浏览 14908

加沙停火协议生效后的48小时:人质释放、民众返乡

澎湃新闻 浏览 1016

如果 AI 有意识,一定会为自己的审美感到羞愧

果壳 浏览 11372

上海一女子5万元买劣质茶叶 被"踢"出厂家"高端"群聊

上游新闻 浏览 68079

年薪180万!众泰汽车副总裁被罢免

经理人杂志 浏览 1017

都心不在焉我来C!鲍威尔上半场4中3&罚球5中4得到11分 全队最高

直播吧 浏览 13352

美德科学家发现24颗超宜居星球!网友:问题是咋去?

趣看热点 浏览 26069

身高1.8米丹麦女王退位 被称为"中国人民的老朋友"

极目新闻 浏览 78003

拉萨的年轻人,原来是这样生活的

幕味儿 浏览 716

开张了,加纳乔斩获切尔西生涯处子球

懂球帝 浏览 848

宝马确认发生数据泄露事件:云存储服务器配置错误

智车情报局 浏览 12641

印度被“揍”服!莫迪放话认怂,背后另有隐情

浏览 4468

胡杏儿官宣怀三胎愿望成真,三胎梦想与原生家庭有关

趣看热点 浏览 25742

歼20不再藏着掖着:就算看的到也追不上

浏览 10864

苏亚雷斯:有信心率领亚泰保级

体坛周报 浏览 1000

在迎来更多国际承认之际 巴勒斯坦领土已"所剩无几"

参考消息 浏览 16395

一艘英国油轮遭胡塞武装袭击 上面装着俄罗斯燃料

财联社 浏览 12683
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1