关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12497人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

普里戈任同意停止行动 普京感谢卢卡申科所作工作

每日经济新闻 浏览 15708

太阳5人15+力克湖人升至西部第2 勒布朗38+5+6

网易体育 浏览 25855

董宇辉带货华为一夜卖了上亿

全天候科技 浏览 11380

记者:加拉塔萨雷租借恩东贝莱达协议,选择买断费1500万欧

直播吧 浏览 14267

这条裙子,今年悄悄火遍全网,冬天穿好有氛围

黎贝卡的异想世界 浏览 269

“私拆承重墙”通报:房东物业从重按上限处罚!248套房均未发现结构构件受力裂缝,修复后可满足安全使用要求

每日经济新闻 浏览 16658

马德兴:汪士钦落选是因为熊猫杯引发舆情,于金永身体不适

懂球帝 浏览 223

大哥承诺每月给1万养家费 小弟把事扛了入狱发现被耍

方圆 浏览 6052

7家茅台冰淇淋旗舰店暂停营业?门店回应:正常营业中,小程序无法下单

红星资本局 浏览 10792

就业网站Indeed数据:美国10月职位空缺跌至2021年2月以来最低

华尔街见闻官方 浏览 689

宁波象山沿海进行军事演练 禁止驶入

极目新闻 浏览 1676

张家界荒野求生热门选手退赛 连下一周雨致腿部冻伤

极目新闻 浏览 12532

亚洲杯假球?日本故意放水:低级失误丢球,坑惨中国女足,太难了

侃球熊弟 浏览 11850

中国防长对“以台制华”发出警告

海外网 浏览 14425

马克龙:“法国希望击败俄罗斯”!俄罗斯怒了

每日经济新闻 浏览 18853

赖清德为遭美方冷遇辩解 声称"疑赖论"是大陆宣传

直新闻 浏览 14888

如果你已过了40岁,这3个穿搭小心机值得参考

静儿时尚达人 浏览 13527

乌官员:修复卡霍夫卡水电站大坝至少需要5年时间

央视新闻客户端 浏览 92583

被说成“智商税”的眼霜,有必要买吗?

时尚COSMO 浏览 13624

我,天权,让东方甄选掉粉70万,老俞让我提前复播

态℃ 浏览 12750

人脸识别技术的“边界”究竟在哪?

看看新闻Knews 浏览 14226
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1