关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12495人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2023年全球最可靠汽车排名,冠亚军让人意外,路虎、特斯拉垫底

买车家 浏览 12703

新年开训!中国航母枕戈待旦再前行

北青网-北京青年报 浏览 12505

Burberry大秀全场都是"开裆裤"?

一诺小海 浏览 19578

朱民解读硅谷银行破产:金融市场逻辑发生根本变化

网易财经智库 浏览 19805

马斯克承认其他车企不想获得特斯拉FSD授权:他们简直疯了

IT之家 浏览 423

俄一夜间击落249架乌克兰无人机

北青网-北京青年报 浏览 339

进军好莱坞的奢侈品巨头,扎堆拍电影?

YOKA网 浏览 12785

这些才是普通人都该学的冬季穿搭!不浮夸、不单薄,自然保暖

静儿时尚达人 浏览 82

端午假期机票比“五一”便宜两成,你想好去哪玩了吗?

环球网资讯 浏览 16249

中国今年首场重大主场外交活动后 陕西省长率团出访

政知新媒体 浏览 91327

伊朗情报部长:抓获多名欧洲间谍 一些人已被处决

观察者网 浏览 14379

加入快车道!来无锡“太湖杯”一同奔跑

DeepTech深科技 浏览 16125

618心动购物季 408龘龘款狂欢惊喜价6.97万元

网易汽车 浏览 11084

擦碰中国海警艇 揭秘菲律宾“拍照打卡”式炒作套路

环球网资讯 浏览 4772

沙溢自曝曾吃了狗吃过的面发烧三天

青杉依旧啊啊 浏览 909

湖南这一夜,郭碧婷的“水桶腰大饼脸”,是对内娱畸形审美的反击

娱乐圈笔娱君 浏览 12721

可变焦激光雷达 传祺向往S7 PRO+上市售15.98万起

网易汽车 浏览 1496

费兰-托雷斯谈未来:希望有一天我能够回到瓦伦西亚

直播吧 浏览 18433

行业「寒风」尤劲,龙头企业华润三九能否「独善其身」

节点财经 浏览 873

IPO纵览|两会IPO重点回顾:强调提高上市公司质量,夯实市场之基

IPO日报 浏览 11259

iPhone手机半夜“自动给陌生人打电话” 苹果客服回应

极目新闻 浏览 12074
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1