关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19072人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

其实李亚鹏只离了两次婚!过往前任太知名,每段感情都是女方受伤

萌神木木 浏览 947

BBC两高管宣布辞职 特朗普:他们试图"介入总统选举"

红星新闻 浏览 5692

用价格打服你 唐DM-i荣耀版宣战日系德系

网易汽车 浏览 11911

黄子韬徐艺洋“尼克朱迪”模仿秀

今古深日报 浏览 224

“硬刚”英伟达!AMD苏姿丰最新发声:现在处于AI大周期开端

第一财经资讯 浏览 11313

中印边境冲突现场十个细节到底是怎么回事?

趣看热点 浏览 25993

老里弗斯:打得强硬但不聪明会输球的 必须两者兼具才行

直播吧 浏览 18588

日本新首相高市早苗上台,日美同盟是共振还是错位

环球网资讯 浏览 839

任泉在街头蒙面直播:站路边等陌生人来拥抱引争议

影像温度 浏览 14649

生育率急剧下降 韩幼儿园变养老院

环球时报国际 浏览 12467

马斯克发文否认自己吸毒:按NASA要求进行药物测试

手机中国 浏览 12517

66岁老汉成拆迁户暴富2年找了5任妻子:不合适就散

奇史殿堂 浏览 99381

杜海涛和沈梦辰晒出合照否认分手

趣看热点 浏览 26992

如何在全球高端设备领域掌握话语权?“深圳智造”又传喜报

南方都市报 浏览 786

原来是他们!退市股获举牌4个交易日翻倍,步步高系大佬要进董事会

创作者_1486537600008 浏览 15565

王灿频繁探班宣誓主权 杜淳不顾危害当女儿面抽烟

娱絮 浏览 18899

仅7人夺世界杯时拿金球:博比-查尔顿、齐达内、大罗、梅西在列

直播吧 浏览 13172

媒体:美国史无前例限制对华投资 是给自己造"堰塞湖"

环球时报国际 浏览 86242

秦海璐直觉超准!刘宇宁35岁面相改变

智凌纵横 浏览 1706

周冬雨刘昊然新片《燃冬》定档七夕 早前入围戛纳

网易娱乐 浏览 15754

多位球员因伤缺阵!米切尔谈输球:我不找借口 你不能总惦记这事

直播吧 浏览 13697
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1