爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

字节跳动:因...

擅自使用军机...

TA：诺丁汉...

轰-6k在黄...

光线传媒：前...

北约将北极地...

特朗普与高市早苗首次会晤外交部回应

40余名高二学生被强收7500元网课费两地教育局调查

潘玮柏妻子宣云晒与戚薇、胡杏儿的瑞士度假合照

周定洋告别成都蓉城：人生最艰难决定！在对的时间开启新挑战

“这个颜色”今天春天又火了！这样穿好看又减龄

传祺向往M8宗师上市补贴价24.99万元起

“最帅升旗手”张自轩结婚了

大湾区晚会太混乱！跑调抢拍忘词破音全占了，合唱几乎都翻车

伊朗革命卫队呼吁为真主党领导人被杀“复仇”

每体：特尔施特根已进行轻度训练，但还需至少1个月康复

骑士客场负于活塞症结在失误骑士三后场失误14次？

广东110-105深圳4利好！陈家政焦泊乔证明价值，萨林杰统治关键球

王玉雯激动发合照，评论区林一破防

这些才是最适合普通人的造型！不用穿大牌、不老套，真实自然

学者：欧洲想实现核心发展目标除了中国没有其他选择

“长安系”再落关键子：王辉亲掌阿维塔董事长

蜜雪冰城开卖啤酒：价格5.9元至14.9元不等只能外带

低价＂银行直供房＂激增有房产价格低于市价25%

春季穿衣没那么复杂！有这些穿搭值得借鉴，高级舒适又不老套

空间更宽敞奔驰纯电GLC七座版实车曝光

资深天使投资人肖庆平在西藏车祸离世朋友圈内容披露

锦缎观察：AI应用、储能与机器人在2026年的预期差

特斯拉大涨超3%创年内新高，AI叙事主导涨势

交易对价约3.66亿元，华大智造拟收购两大前沿业务