关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者1623人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

极氪12月交付超3万台,2025全年销量超22.4万台

大象新闻 浏览 1829

其实,零百加速5秒的新规才是利好车企

速度计 浏览 2381

N7单月交付破万,东风日产成功“续命”

汽扯扒谈 浏览 3514

塞尔记者:维尼修斯迎来绝佳机会,皇马希望主场球迷不要嘘他

懂球帝 浏览 1716

媒体:萝莉岛内部似妓院配置 牙医椅子让人浮想联翩

新民周刊 浏览 33274

昂跑藏了一张底牌

虎嗅APP 浏览 1878

比亚迪双旗舰谍照来了!大汉/大唐,更大、更强

车市红点 浏览 1902

2026年4款全新MPV曝光:零跑将推“半价MEGA”,吉利华为有新品

蜗牛车志V 浏览 1691

《逍遥》结局揭秘:糖衣之下,是千年人妖血泪博弈

肆季娱乐 浏览 1888

这家基因编辑初创正在挑战FDA的监管边界

DeepTech深科技 浏览 1658

五粮液第三季度营收、净利润同比分别下降52.66%、65.62%

红星资本局 浏览 2637

女生高考604分放弃本科就读高职 被质疑"没苦硬吃"

环球网资讯 浏览 7904

逍遥大结局:看到最后,这个曾经最可恨的妖,却是全剧喜剧人之首

肆季娱乐 浏览 1717

微软澄清Gaming Copilot争议:截图仅用于识别游戏,不用于AI训练

IT之家 浏览 2520

国家医保局:职工医保个人账户跨省共济今年全国覆盖

商业观察杂志社 浏览 849

世体:拉波尔塔率队访问布鲁日,参加接待仪式并漫步市中心

懂球帝 浏览 2433

欧冠一夜4战!将有4队出线:头号黑马呼之欲出 2队晋级无忧

叶青足球世界 浏览 974

基米希被法比安鲁伊斯爆头,裁判未做表示,VAR未介入

懂球帝 浏览 2410

韩国很急:在跟中方沟通了 希望最大限度降低韩企损失

澎湃新闻 浏览 6431

以色列宣布:将扣押的数百名活动人士驱逐出境

环球时报国际 浏览 2855

内维尔:我原本认为曼城状态不够稳定,但看来我大错特错了

懂球帝 浏览 2429
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1