关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19069人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

外媒:苹果大幅下调首款头显产量目标,因设计复杂和生产难度大

澎湃新闻 浏览 15349

63.3度电池+60L油箱 小鹏X9增程版续航1602公里

网易汽车 浏览 888

思辨之夏|丁磊、史喆:训练1个ChatGPT要多少钱?

网易财经智库 浏览 16255

敷尔佳:定价过高、盟友倒戈,重营销模式难掩发展困境|ESG案例

网易财经ESG 浏览 675

普京与埃尔多安通话 首次回应卡霍夫卡大坝遭袭

环球网 浏览 16413

104岁老人一心赴死 安乐死中途突然睁眼吐槽"药效慢"

历史求知所 浏览 81460

巴萨前主席遭逮捕,曾雇佣水军抹黑自家球员

趣看热点 浏览 26308

Chatgpt涉嫌信息盗窃被起诉,被要求赔偿30亿美元

36氪 浏览 15482

张柏芝想为结婚对象再生小孩,对生孩子这件事特别看重

趣看热点 浏览 27630

监管出手!部分机构接到通知,基金实时估值功能下线!

中国基金报 浏览 16451

投资者不必恐惧雪球敲入

北京商报 浏览 12815

追梦:篮网27号秀是“犹太约基奇”?是个人就是小约基奇啊

懂球帝 浏览 82

俄军战术演练 7架安-124-100运输机同时升空

环球网资讯 浏览 12811

波兰外交部称有炮弹击中该国驻乌克兰大使馆

极目新闻 浏览 1477

扎波罗热地方官员:扎波罗热核电站情况稳定

环球网资讯 浏览 16117

充电5分钟就能补400公里,为什么节假日还要排队充电?

吴佩频道 浏览 997

尼克斯大胜送黄蜂7连败 布伦森33分首发五人组狂轰111分

醉卧浮生 浏览 379

双巴大战来了!萨巴伦卡、莱巴金娜会师WTA总决赛争冠

懂球帝 浏览 693

以为丁真在西藏丁真是四川小伙,四川:原来爱会消失

趣看热点 浏览 26623

14岁王诗龄拍写真尽显壕气 穿12万裙子披波浪卷发

萌神木木 浏览 12841

美方称美海岸警卫队将向亚洲增派巡逻舰

参考消息 浏览 16529
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1