关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro805人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

弱水时砂预热“锆势”旗舰 TWS 蓝牙入耳式耳机,9 月 25 日上市

IT之家 浏览 4353

印巴空战震撼全球:PL-15导弹为何一击必杀

浏览 7621

山东省首家国际顶尖科学家工作室启动,聚焦阿秒激光技术领域

财闻 浏览 1675

内德维德:我一直很喜欢加斯佩里尼,罗马有这样的教练是幸运

懂球帝 浏览 3683

实拍斯巴鲁PERFORMANCE-B STI概念车:传奇随时可以复活,无奈量产成本太高

驾仕派 浏览 3515

娜扎被抢休息室,网友扒出疑似林允

萌神木木 浏览 3778

40岁宋仲基带老婆参加友人婚礼,被误认成徐帆

丁丁鲤史纪 浏览 2452

王楚钦退赛:突然背部不适 一度不太能动得了

北京日报 浏览 8126

iCAR苏峻:我们不做夹生饭,不造速生车

网易汽车 浏览 3173

8155芯片+L2智驾 瑞虎5运动版上市 置换补贴价6.79万元起

网易汽车 浏览 1103

消息称6.3英寸小屏机或为OPPO Find X9s,将搭载双2亿镜头

IT之家 浏览 2849

中国留学生潜水后失踪妻子4天后报警 仅找到一根胫骨

新民晚报 浏览 22788

刘欢,早已走上另一条大道

奥字侃剧 浏览 2948

1-10月累计同比增长57.1% 深蓝汽车10月全球销量36792辆

网易汽车 浏览 3427

即将空降!26集都市大剧来袭,蒋欣王子文领衔

娱乐圈笔娱君 浏览 2491

看了隆妮表演才知道,观众都冤枉杨幂了?

霁月文娱阁 浏览 3824

满屏爱张力,现偶活过来了!

吐槽电影院 浏览 2869

TA:从多纳鲁马到塞门约,瓜帅的足球风格已从控球转变为反击

懂球帝 浏览 2726

看了日本主妇的搭配才明白,年纪大了这么穿,优雅又不油腻

静儿时尚达人 浏览 2632

上海网友在日料店里吃出蛆虫 蛆虫还在炸鸡上蠕动

极目新闻 浏览 21898

住户睡觉没拔充电器家被烧 一两分钟火苗蹿到天花板

极目新闻 浏览 9186
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1