关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12507人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

菲总统称中菲关系"走错方向" 外交部回应

澎湃新闻 浏览 75175

今日热点:神偷奶爸4首支预告;霉霉拥吻比赛胜利的男友......

伊周潮流 浏览 12768

美国机密文件泄密嫌疑人被捕 仍掌握300张文件照片

环球网资讯 浏览 19073

陈小春在沈阳开演唱会,被东北观众感动到流泪

小娱乐悠悠 浏览 372

TMT行情短期难言见顶?机构建议这么布局

21世纪经济报道 浏览 18236

英媒:美拟阻止"特定中国厂商"获得更多荷兰芯片设备

环球网 浏览 90984

今日热点:电影《得闲谨制》定档;成毅回应《两京十五日》拍摄受伤……

伊周潮流 浏览 245

豪门赘婿,惨被退货?

仙女事件簿 浏览 932

男子为女儿买房花30万装修 如今却站在门口不敢进去

1818黄金眼 浏览 29766

刘诗诗分享生日宴会美照,笑容甜美似初恋,鲜花蛋糕簇拥宛如仙境

深剖娱乐圈 浏览 12141

沉默的荣耀大结局前瞻,最惨角色出炉,果然不幸的人各有各的不幸

娱乐圈笔娱君 浏览 1010

中国第一代超模回归了 状态太好!

一条 浏览 16938

汪顺和彪子这肩宽,苏炳添都跑不进10秒!

时尚COSMO 浏览 13315

斯基拉:马竞计划买断冈萨雷斯,费用为3200万欧+100万欧奖金

懂球帝 浏览 1032

从ChatGPT聊微软的云战略

Daily每日财报 浏览 19169

调研|两融新开户数超去年!三大维度解析交易活跃度

券商中国 浏览 1554

粉色涂装 雷克萨斯Glam LX概念车发布

车质网 浏览 1577

医生+教师“王炸”组合IPO!海圣医疗为千家医院供货年入3亿

野马财经 浏览 725

这些年轻科学家不再满足于“追赶美国”

知识分子 浏览 1459

男子同时筹备"2场婚礼" 被抓正与"未来岳父母"谈婚房

鲁中晨报 浏览 7020

理查兹:道曼和萨卡位置重叠,为球员未来发展应该将他外租

懂球帝 浏览 731
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1