关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19093人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

广联达被传全体员工年终绩效清零

财联社 浏览 12595

希瑞发布智能戒指 “全天候”健康生态野心初显

环球网资讯 浏览 872

戴尔科技集团发布2024财年ESG报告 重申ESG2025目标

网易科技报道 浏览 10644

比亚迪新车预告,2024年方程豹皮卡,腾势版“帕美”都要来了

蜗牛车志V 浏览 12825

兹维炮轰巴黎场地速度:太慢,弹跳忽高忽低,阿卡出局或与此有关

网球之家 浏览 728

以色列总理称将召集内阁批准停火协议

央视新闻客户端 浏览 1018

这四件外套,承包冬天90%的时髦

Yuki女人故事 浏览 13481

又是一个苦涩赛季?利物浦欧冠惨败,联赛第8,国内杯赛皆出局

直播吧 浏览 19239

外媒:乌克兰驻以色列大使称内塔尼亚胡正考虑访乌

参考消息 浏览 15742

上海AI实验室团队首创视频驱动交互网页重建基准

科技行者 浏览 892

男明星与女明星回应绯闻对比,主打一个反差

传媒一班 浏览 15427

李嫣逛街故意遮住脸 穿长裙皮肤白皙亭亭玉立

素素娱乐 浏览 19789

降入20万价格区间 曝廉价版特斯拉即将国产

车质网 浏览 1043

视频号到赚钱的时候了吗?有人月GMV3000万,有人看不懂要放弃

刺猬公社 浏览 16446

周杰伦被造谣出轨!好友曝夫妻俩相处模式,透露昆凌太乖惹争议

文艺圈娱乐号 浏览 12930

当你沉睡时,TA还在工作

学申论的谈妹 浏览 1011

方力申承认新恋情 早知女友曾受性侵并将陪她出庭

网易娱乐 浏览 19817

《繁花》能为百雀羚业绩添花吗?

界面新闻 浏览 12985

昆阳大战,王莽40多万兵为何败给不足万人的刘秀一方?

趣看热点 浏览 26201

美媒:美两架军机坠入南海或与燃油无关

北京晚报 浏览 732

贾静雯晒一家四口出游照 波妞身高优越直追咘咘

侦探娱乐 浏览 14998
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1