关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19079人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一定要用的“红”运单品,你准备好了吗?

LinkFashion 浏览 14085

联想 ThinkPad P1 2026 AI 元启版 10 月 20 日首销,25999 元起

IT之家 浏览 1032

因未能有效打击谣言,欧盟宣布对马斯克X提起诉讼

IT之家 浏览 12928

甄子丹一家澳门旅游,受何超琼接待,岳母保养得宜

云图娱乐 浏览 19757

同游仍少年!精灵世界空降杭州

时尚COSMO 浏览 796

邓超为王宝强电影包场,跑男团真实关系备受争议

不八卦会死星人 浏览 15548

200多斤小伙落水漂浮7小时 钱塘江大潮来临之际获救

新民晚报 浏览 1043

关晓彤照片打码 不敢大方和鹿晗秀恩爱?

传媒一班 浏览 15920

更年轻动感 全新马自达CX-5正式首发亮相

车质网 浏览 775

从“土三轮”到“全球潮品”,这里的“三蹦子”何以“闯世界”

新华社 浏览 785

OpenAI ChatGPT自动切换严格模型处理情感话题,用户却不知情

IT之家 浏览 1509

中金:日股还能买么?

网易财经 浏览 12857

年薪超百万,京东开始挖汽车人!

电动知家 浏览 976

问界M9 2024款开放华为ADS小蓝灯升级服务

网易汽车 浏览 1057

周润发现身街头买盒饭 认真挑选毫无巨星包袱!

娱乐团长 浏览 12979

王思聪搂美女逛街,女方和前女友是闺蜜,00后女友疑似吃醋喊话

萌神木木 浏览 12151

媒体:在"泄密门"后见盟友 布林肯参加G7外长会很糟心

枢密院十号 浏览 116885

宝马将采取油电并存策略,董事会成员高乐称“内燃机永不会消失”

IT之家 浏览 1719

13.99万元起 深度解读深蓝L06三大黑科技

第五冲程 浏览 722

扛住了央视镜头的赵今麦,扛得住半高马尾吗?

ELLE世界时装之苑杂志 浏览 19539

俄乌冲突关键时刻拜登将赴欧洲 还将会见查尔斯三世

上观新闻 浏览 96261
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1