关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19087人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:郑丽文当选回复大陆贺电 表述难得一见意义重大

经济观察报 浏览 6057

奇瑞集团10月份销售汽车281161辆 同比增长3.3%

网易汽车 浏览 768

罗马诺:布莱顿在谈阿根廷19岁边卫瓦伦丁转会,球员十分希望加盟

直播吧 浏览 14477

外媒:胡安-拉米雷斯将租借加盟青岛青春岛,租期至2023年底

直播吧 浏览 19170

入夏裤子就穿这4条 清凉显廋巨时髦!

In风尚 浏览 17002

爆破试验带你看巡飞弹飞龙-60A有多强

环球网资讯 浏览 1597

高通任命Akash Palkhiwala为首席财务官兼首席运营官,进一步扩展职责范围

超能网 浏览 12582

31岁原辽宁女篮运动员猝然离世 友人:不敢相信是真的

缘木不求娱 浏览 70666

被称为高中版黑暗荣耀,女主竟是僵尸校园里的她

橘子娱乐 浏览 17323

消息人士:普京欲以承认当前战场线的协议来停止战争

参考消息 浏览 11051

生于1996年女子连任董事长 去年薪酬92万元

每日经济新闻 浏览 6148

月球表面发现水,或成为未来探月有利因素

趣看热点 浏览 25519

今年最好看的10件半裙

LinkFashion 浏览 16398

深入落实习惯过紧日子要求 财政支出聚焦四大领域发力

南方都市报 浏览 12820

央视中秋宋佳大气唐嫣美艳,侯佩岑主持功底深,谢娜受邀另有原因

不八卦会死星人 浏览 1000

车市价格战背后,真正的厮杀才刚刚开始

深蓝财经 浏览 19283

智己LS9上市32.28万起 两个Ultra都是高配

网易汽车 浏览 557

以色列空袭加沙最大难民营 哈马斯否认其领导人在内

环球时报国际 浏览 79894

乌方将向美提交新20点和平计划 泽连斯基表态

财联社 浏览 98

业界呼吁取消绿牌,“北京免摇号、上海可省十万”将成历史?

时代财经 浏览 18181

65射1中!C罗任意球暴跌至1.5% 菲戈:多向小贝学习

网易体育 浏览 26237
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1