关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者1626人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英伟达发布新一代Rubin平台,推理成本较Blackwell降10倍,拟下半年发货

华尔街见闻官方 浏览 1781

联想 moto razr 60 系列手机获中国线上市场安卓小折叠销量第一

IT之家 浏览 2771

铜铜铜,快要高攀不起了

每日资本论 浏览 2045

小米米家漫反射吸顶灯新品预约:1899元

IT之家 浏览 1711

具身智能何时实现“ChatGPT时刻”,王兴兴说了个关键前提丨聚焦进博会

红星资本局 浏览 2517

新兴市场套利狂潮未止!华尔街看好2026年高收益货币前景

智通财经 浏览 2048

降温了!羽绒服这样穿显瘦又时髦

LinkFashion 浏览 1485

Aqara绿米推出U400智能锁:自带UWB超宽带,可实现无感解锁

IT之家 浏览 1776

AI 正在接管代码,AWS 首席布道师却说:开发者的未来在「沟通」

极客公园 浏览 2692

香港65公斤黄金被劫价值超半亿 西九龙重案组深夜通报

极目新闻 浏览 14982

热爱正当时,新晋蛙后唐钱婷的双面人生

时尚COSMO 浏览 1802

见证历史!深夜,全线爆发!

券商中国 浏览 3443

胡歌现身为电影宣传,现场人山人海全场欢呼,胡歌照顾后辈好暖心

扒虾侃娱 浏览 2358

中国商业联合会:人工智能加速拓展服务消费新场景

新华社 浏览 1642

特拉维夫多处建筑遭袭 相关区域实施严格管制

环球网资讯 浏览 785

流落柬埔寨的福建女网红和家里通话 问"何时来接我"

极目新闻 浏览 8007

我永远不会买黄金,更不会投资黄金!

浏览 24872

德约领衔ATP阿德莱德站正赛名单

体坛周报 浏览 1986

和任正非聊一聊,会有新品牌?

道哥说车 浏览 2835

中年女人的开挂指南,避开花衣服和紧身衣,把优雅感焊在身上

静儿时尚达人 浏览 2351

舒淇现身亲揭《女孩》没报金马奖原因

ETtoday星光云 浏览 2615
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1