关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro765人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:马克龙戴墨镜出席达沃斯 说的话不给特朗普面子

新民周刊 浏览 19895

《水龙吟》《天地剑心》一弃一追

古木之草记 浏览 3483

伊姐周六热推:电视剧《年少有为》;电视剧《有罪之身》......

伊周潮流 浏览 2485

50+的女性,大衣、直筒裤、皮草这么穿,冬天保暖显瘦两不误

静儿时尚达人 浏览 2009

范明与妻子庆结婚30周年!每桌配茅台

楠楠自语 浏览 1053

广西荔浦公交公司停运:财务补贴没到位 买不起保险了

潇湘晨报 浏览 5651

"荒野求生"48万元奖金被平分 选手:这点钱不够盖房子

极目新闻 浏览 9033

乔治亚理工学院联手微软:让AI训练效率暴增21%的神奇新方法

科技行者 浏览 3377

当反向过年走红 留在北京的网约车司机"狠狠捡漏"

第一财经资讯 浏览 19046

一加Ace 6T宣布12月3日发布!全球首发第五代骁龙8、超8000mAh大电池

快科技 浏览 3204

名宿:拜仁选孔帕尼,如同中了头奖

体坛周报 浏览 3534

宝利德破产听证后官司缠身 昔日豪车经销商驶向何方

财闻 浏览 3465

陈晓最新露面瘦脱相!新剧要和陈妍希对打,女方离婚后状态更好

萌神木木 浏览 3217

伊朗情报部长:伊成功渗透以色列核研究设施

每日经济新闻 浏览 4256

国产GPU厂商燧原科技科创板IPO获受理 拟融资60亿

网易财经 浏览 2514

伊朗最高领袖哈梅内伊转入地堡 日常事务交由儿子接管

极目新闻 浏览 6995

NBA战报:活塞122-117步行者取NBA12连胜,西亚卡姆24分

懂球帝 浏览 3239

乔治亚大学团队让大型语言模型学会"精打细算"的思考方式

科技行者 浏览 3494

全市场:尤文与国米有意穆哈雷莫维奇,但萨索洛要留他到明夏

懂球帝 浏览 2966

*ST沪科面临退市风险,或还因此前信披问题遭股民索赔

雷达财经 浏览 2419

周末超重磅!特朗普关税突发,ETF净流出近2000亿,央广网:降温不是熄火

看财经show 浏览 2545
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1