关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19055人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

看了落马院长的忏悔视频 几十位医卫系统干部上交97万

上观新闻 浏览 85780

拿捏张艺谋审美这么多年,真不愧是全国第一美

新氧 浏览 13470

电视剧热榜:《狗剩快跑》第七,《大江大河3》第四,它弯道超车

肆季娱乐 浏览 13089

独家|我们与淘宝闪购管理层聊了聊增长的持续性问题

虎嗅APP 浏览 903

克洛普:曼城有最好的教练,最好的中锋,最好的英格兰球员

懂球帝 浏览 12314

詹姆斯正建造两栋豪宅!11000平米一分为二:为布朗尼准备婚房?

罗说NBA 浏览 766

硬件不会绑定新特性:荣耀 Magic6 / 7 全系将支持追色和胶片功能

IT之家 浏览 742

夫妻带走无人照看的狗获刑 当公务员的妻子被停发工资

封面新闻 浏览 111288

明星开工第一天!热巴晒自拍准备进组,杨幂高定上身底气十足

萌神木木 浏览 12505

美国提醒以色列反被怼:少管闲事

观察者网 浏览 19302

500Bar新蓝鲸 CS75PLUS智慧冠军版限时价9.19万元起

网易汽车 浏览 795

拉什福德社媒鼓励球队:这是马拉松不是短跑,我们会继续战斗

懂球帝 浏览 763

王思聪生日许愿“赚大钱”,00后新女友卖货,王健林还缺多少钱?

金融八卦女 浏览 12947

大咖对话:从L2到L4,如何破解高阶智驾落地难题

网易汽车 浏览 59

女子回门宴放父母34年前结婚录像 现场8成宾客曾参加

极目新闻 浏览 7207

人工智能时代,应警惕“思维钝化”

环球时报国际 浏览 12327

美国机密文件泄密嫌疑人被捕 仍掌握300张文件照片

环球网资讯 浏览 19043

泰国与中国完成潜艇采购谈判,后面或还有

浏览 11067

标配华为乾崑智驾 深蓝S07售15.69万起

网易汽车 浏览 1565

万亿央企,原董事长被查!

每日经济新闻 浏览 12508

车企曾说弃用,激光雷达为什么却在年底迎来爆发?

电厂 浏览 12915
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1