关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro760人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

周定洋告别成都蓉城:人生最艰难决定!在对的时间开启新挑战

奥拜尔 浏览 2717

“这个颜色”今天春天又火了!这样穿好看又减龄

LinkFashion 浏览 1664

传祺向往M8宗师上市 补贴价24.99万元起

网易汽车 浏览 3718

“最帅升旗手”张自轩结婚了

说点事 浏览 2708

大湾区晚会太混乱!跑调抢拍忘词破音全占了,合唱几乎都翻车

萌神木木 浏览 3457

伊朗革命卫队呼吁为真主党领导人被杀“复仇”

参考消息 浏览 3172

每体:特尔施特根已进行轻度训练,但还需至少1个月康复

懂球帝 浏览 3556

骑士客场负于活塞症结在失误 骑士三后场失误14次?

仰卧撑FTUer 浏览 293

广东110-105深圳4利好!陈家政焦泊乔证明价值,萨林杰统治关键球

篮球资讯达人 浏览 2676

王玉雯激动发合照,评论区林一破防

鲁中晨报 浏览 3559

这些才是最适合普通人的造型!不用穿大牌、不老套,真实自然

静儿时尚达人 浏览 734

学者:欧洲想实现核心发展目标 除了中国没有其他选择

澎湃新闻 浏览 7299

“长安系”再落关键子:王辉亲掌阿维塔董事长

网易汽车 浏览 4529

蜜雪冰城开卖啤酒:价格5.9元至14.9元不等 只能外带

极目新闻 浏览 7794

低价"银行直供房"激增 有房产价格低于市价25%

第一财经资讯 浏览 7827

春季穿衣没那么复杂!有这些穿搭值得借鉴,高级舒适又不老套

静儿时尚达人 浏览 294

空间更宽敞 奔驰纯电GLC七座版实车曝光

车质网 浏览 2527

资深天使投资人肖庆平在西藏车祸离世 朋友圈内容披露

都市快报橙柿互动 浏览 3871

锦缎观察:AI应用、储能与机器人在2026年的预期差

锦缎研究院 浏览 2634

特斯拉大涨超3%创年内新高,AI叙事主导涨势

华尔街见闻官方 浏览 2908

交易对价约3.66亿元,华大智造拟收购两大前沿业务

南方都市报 浏览 2399
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1