关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19092人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

初秋氛围感穿搭真的绝!

巧百搭 浏览 15182

伊土两国外长:地区国家应共同应对以色列侵略扩张

环球网资讯 浏览 264

节后,最想穿红靴子去上班!

Yuki女人故事 浏览 13200

赢得认可!一位加拉塔萨雷球迷为自己新出生的孩子取名伊卡尔迪

直播吧 浏览 16280

AI带货频频“翻车”,谁应负责?

虎嗅APP 浏览 656

钟丽缇3个女儿太会长,大女儿性感,二女儿高级,小女儿最像妈

不八卦会死星人 浏览 12658

邦本宜裕:给自己本赛季表现打100分,本来想完成20个助攻

懂球帝 浏览 629

桑托斯3-1科林蒂安,罗埃塞点射破门,巴雷亚尔传射

懂球帝 浏览 1063

最顶尖油车!劳斯莱斯给艺术品装上发动机,布加迪搭载V16引擎

蜗牛车志V 浏览 11997

被美围绕的一周:上课、逛家、看展

黎贝卡的异想世界 浏览 949

讴歌全新轿车专利商标注册!外观酷似TLX/明年发布

网上车市 浏览 20372

比尔狂砍60分创新纪录,奇才5分之差惜败76人

趣看热点 浏览 26301

以色列再次空袭叙利亚首都大马士革,反导系统成功拦截大部分导弹

趣看热点 浏览 26748

这个韩国超模好厉害 Jennie宋慧乔争着和她当闺蜜

ChicMyGeek 浏览 15891

担任县长11年的女厅官被双开 涉及矿难瞒报问题

政知新媒体 浏览 78263

短剧《还珠》:有些明星不火,真的是必然!

海绵宝宝的心事 浏览 716

恒大被清盘 前员工:家人买恒大理财 不敢问收回多少

每日经济新闻 浏览 77570

Phoebe Philo即将回归 极简风潮要卷土重来了吗?

VOGUE中国 浏览 14999

Netflix砍掉手机投屏功能:官方称“提升体验”,用户骂声一片

IT之家 浏览 258

普京就“瓦格纳事件”发表讲话 绍伊古在场

界面新闻 浏览 111399

福建舰入列消息刷屏 美媒对其达到的技术高度表示赞叹

环球网资讯 浏览 5531
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1