关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro777人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

【年度爱用】她们2025年买得最值的,是这些

黎贝卡的异想世界 浏览 2668

尤文啃下硬骨头 斯帕莱蒂拿到“最重要的胜利”

体坛周报 浏览 2973

国外产子,知三当三,江疏影传闻哪个是真的

黔乡小姊妹 浏览 501

落地“好房子”,龙湖2025年交付近7万套品质房源

YOUNG财经 浏览 2606

问界新M5 Ultra全新一轮OTA升级 ADS 4全面上车

网易汽车 浏览 4263

二手车商称雷军在吹牛:现在有的车型降10万都没人要

都市现场 浏览 7863

没入选巴西国家队,恩德里克在国际比赛日期间前往摩洛哥度假

懂球帝 浏览 3721

福特中国,需要的不止是更换“公关一号位”

电动势 浏览 1707

全球最大稳定币遭质疑 标普将评级降至“最差一档”

财联社 浏览 3208

为财政刺激计划融资,日本拟增发逾11.5万亿日元新债

华尔街见闻官方 浏览 3214

CES2026开幕,英伟达黄仁勋提到多个中国大模型,这些中国产品将亮相

文汇报 浏览 2793

柏林联合主帅埃塔期待与前帅菲舍尔重逢

绿茵情报局 浏览 209

郭晶晶就个人发展问题最新发声

新民周刊 浏览 3660

召集全球高级将领开会前 美军试射4枚导弹

新民晚报 浏览 4218

海盗船发布《使命召唤:黑色行动 7》联名外设,含键盘等多款产品

IT之家 浏览 3320

零跑Lafa5:一副钢炮的皮,一颗家用的心?

Autolab 浏览 3395

全新MG4、极狐T1和缤果S,都上市不久,分别卖得怎么样?

车轮生活 浏览 3884

大姐答应给30万拆迁款未兑现 56岁弟弟当保安至今单身

福建第一帮帮团 浏览 8775

ED网红病,正在掏空年轻女性

她刊 浏览 1024

奥运冠军江旻憓将参加香港立法会选举 申请放弃加护照

澎湃新闻 浏览 9039

达利欧:AI热潮处于泡沫初期,美联储或进一步吹大泡沫

华尔街见闻官方 浏览 2792
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1