关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12503人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

针织+半裙,秋天最经典搭配,好看又减龄!

LinkFashion 浏览 2007

气质穿搭看杨采钰 法式复古风格轻熟优雅

巧百搭 浏览 15213

华为:HarmonyOS 5终端设备数量突破2000万台

大象新闻 浏览 1579

“V领毛衣”今年秋天爆火!知识分子风、老钱风都少不了它

LinkFashion 浏览 1094

铁!北京本场三分20中3 赛季首次连续两战三分命中率不足20%

直播吧 浏览 19247

王嘉尔再惹争议:环抱女网红 和男子在酒吧显亲昵

叶公子 浏览 14892

音悦台要回归了?官方透露:很快就要内测

网易娱乐 浏览 19346

59岁蒋雯丽现状让人心酸,一代女神也落寞了?

洲洲影视娱评 浏览 639

胡杏儿官宣怀三胎愿望成真,三胎梦想与原生家庭有关

趣看热点 浏览 25738

五粮液能“平替”茅台?

虎嗅APP 浏览 17143

天兵科技就火箭坠落致歉:受损居民都赔偿

中新经纬 浏览 10667

年内上市/纯电和增程可选 阿维塔07实车谍照曝光

网易汽车 浏览 11229

查尔斯加冕礼,阿黛尔等歌星以档期为由拒绝献唱

环球网资讯 浏览 18998

“老司机”丰田,给新造车上一课

1号车盟 浏览 12025

推广|| 用了好几年才推荐,这件单品真的值得投资

黎贝卡的异想世界 浏览 919

淘特回应团队大部分人员合并到淘宝:业务有调整,不会并入淘宝

Tech星球 浏览 18780

拜登为何卸任前如此“恶毒”?

浏览 22916

媒体:"火车控"拜登去基辅前 向俄国发了条"调度令"

新民周刊 浏览 19369

海关总署:全面暂停进口日本水产品

中华人民共和国海关总署 浏览 84979

王菲携女儿回国聚会:剪短发瘦得惊人 李嫣像妈妈

盖饭娱乐官方号 浏览 14988

穆勒:对阵巴黎会尝试干扰姆巴佩 索默在这里很舒服我们信任他

直播吧 浏览 19218
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1