爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

销量、价格双...

美媒：泽连斯...

曼联6500...

哲凯还是谢什...

门多萨：为马...

保时捷下一代...

中央定调！“十五五”目标确立，未来5年养老金还会涨吗？

惠普暗影精灵11《英雄联盟》典藏版月底开售，海克斯金色线条装饰

被金高银新剧种草了好多单品，从优衣库到爱马仕都帮大家扒出来了

媒体：马克龙戴墨镜出席达沃斯说的话不给特朗普面子

《水龙吟》《天地剑心》一弃一追

伊姐周六热推：电视剧《年少有为》；电视剧《有罪之身》......

50+的女性，大衣、直筒裤、皮草这么穿，冬天保暖显瘦两不误

范明与妻子庆结婚30周年！每桌配茅台

广西荔浦公交公司停运：财务补贴没到位买不起保险了

＂荒野求生＂48万元奖金被平分选手：这点钱不够盖房子

乔治亚理工学院联手微软：让AI训练效率暴增21%的神奇新方法

当反向过年走红留在北京的网约车司机＂狠狠捡漏＂

一加Ace 6T宣布12月3日发布！全球首发第五代骁龙8、超8000mAh大电池

名宿：拜仁选孔帕尼，如同中了头奖

宝利德破产听证后官司缠身昔日豪车经销商驶向何方

陈晓最新露面瘦脱相！新剧要和陈妍希对打，女方离婚后状态更好

伊朗情报部长：伊成功渗透以色列核研究设施

国产GPU厂商燧原科技科创板IPO获受理拟融资60亿

伊朗最高领袖哈梅内伊转入地堡日常事务交由儿子接管

NBA战报：活塞122-117步行者取NBA12连胜，西亚卡姆24分

乔治亚大学团队让大型语言模型学会＂精打细算＂的思考方式

全市场：尤文与国米有意穆哈雷莫维奇，但萨索洛要留他到明夏

*ST沪科面临退市风险，或还因此前信披问题遭股民索赔

周末超重磅！特朗普关税突发，ETF净流出近2000亿，央广网：降温不是熄火