关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19076人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高市早苗曾叫嚣台湾有事日本必入

极目新闻 浏览 888

新能源车卖得好不好,全看吹的姿势好不好?

蓝鲸财经 浏览 16658

狮子座流星雨17日19时迎来极大狮子座流星雨名字的由来

趣看热点 浏览 25614

遭央视起底 台媒:沈伯洋内心已经相当恐惧

北京日报客户端-长安街知事 浏览 5395

大连海鲜成双十一最热销特产之一 海参大虾扇贝备受追捧

半岛晨报 浏览 632

公司裁员不小心裁到“大动脉”,直接损失3000万引争议,网友:请看东方甄选

可达鸭面面观 浏览 12035

如何当好一名合格的伴郎?

YOKA网 浏览 14875

快手程一笑:过去一年,超过2200万名创作者在快手获得收入

网易科技报道 浏览 15132

俄官宣“末日鱼雷”完成核动力试验

环球网资讯 浏览 727

叱咤海空!看“航母尖刀”10年名场面

环球网资讯 浏览 18891

舒淇现身亲揭《女孩》没报金马奖原因

ETtoday星光云 浏览 817

茅台卖咖啡,28 元起一杯,含1.8ML茅台酒

红星资本局 浏览 16221

亚冠激烈冲突!米内罗点球破门,10人互相推搡,柔佛门将贴脸怒吼

奥拜尔 浏览 746

古代帝王皇族们为什么都喜欢围猎?真不是因为馋野味

趣看热点 浏览 26516

李亚鹏扛锄头下地干活仰头大吼 工具太新遭嘲作秀

盖饭娱乐官方号 浏览 19403

日媒预测日本VS伊拉克首发:富安健洋、南野拓实在列,三笘薰替补

直播吧 浏览 12767

真正优雅的中年女人,发型简约,穿衣大方

静儿时尚达人 浏览 13310

沙特,一部活色生香的《一千零一夜》

时尚COSMO 浏览 854

老实人狂野起来 卡罗拉概念车拒当“买菜车”

网易汽车 浏览 750

何超仪曝丈夫病情曾命悬一线 获姐姐何超琼打气

传媒樱桃派 浏览 14763

掌握这三种搭配示范 越看越时髦

Yuki时尚酱 浏览 18986
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1