关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19091人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

综合续航超1400公里 奇瑞风云T9是你的菜吗?

汽车经纬网 浏览 13076

美财长耶伦:对华脱钩是"灾难" 希望布林肯能尽快访华

每日经济新闻 浏览 92917

比亚迪:2024年及之后还将推出多款高端豪华车型

智车情报局 浏览 12359

从多巴胺到芭比粉 大家为什么会为颜色买单?

半熟财经 浏览 15392

乌军丢失"钢铁要塞" 俄军争夺战被形容为"非常血腥"

枢密院十号 浏览 82377

奥尼尔:投3分真太TMD爽了 羡慕现在的中锋 我打球时教练根本不让

直播吧 浏览 10845

中超第27轮传球成功率榜:国安89.6%居首,时隔5轮再次登顶

懂球帝 浏览 887

看到洪水冲毁花莲桥梁大声讪笑 台官员被批"冷血"

澎湃新闻 浏览 1491

特斯拉与迪士尼合作引争议:车机引入《创:战神》车模被指广告

IT之家 浏览 1006

俄媒:普京签署法律规定"非重刑犯参军可提前释放"

参考消息 浏览 15883

特朗普称将会见泽连斯基 讨论防空与远程导弹援助等

新京报 浏览 977

邓炳强称火势蔓延过快不寻常 事发楼栋居民发声

经济观察报 浏览 29234

黄渤谈女儿:不鸡娃、只陪玩,又怕耽误孩子成长

传媒樱桃派 浏览 14627

2023年秋冬十大流行设计趋势 千万别错过

国际纺织品流行趋势 浏览 15007

这不是危言耸听:最快明年,比亚迪的插混和纯电,就没有区别了

小李车评李建红 浏览 864

B站、小红书“崩了”冲上热搜!什么原因?阿里云回应

21世纪经济报道 浏览 10588

丰田连续第八届参展进博会,全面展示本地化成果

观察者网 浏览 671

美陆军部长抵达阿联酋首都 与俄“秘密会谈”

环球网资讯 浏览 387

美国防部长下令再延长两艘军舰在地中海驻扎时间

央视新闻客户端 浏览 12951

纯电真的放缓?美国充电桩企业已经盈利了

汽车商业评论杂志 浏览 12191

上海楼市,再传大消息!

中国基金报 浏览 12361
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1