爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

DNA双螺旋...

让AI给人类...

十年前，我们...

BBA大促混...

E句话| 他...

贝壳豪掷23...

胡塞武装称若加沙停火破裂将恢复袭击以色列

副院长传出不雅视频后赴外地坐诊引争议当地医院删文

谭松韵扛剧能力被质疑赵丽颖成女主？

弱水时砂预热“锆势”旗舰 TWS 蓝牙入耳式耳机，9 月 25 日上市

印巴空战震撼全球：PL-15导弹为何一击必杀

山东省首家国际顶尖科学家工作室启动，聚焦阿秒激光技术领域

内德维德：我一直很喜欢加斯佩里尼，罗马有这样的教练是幸运

实拍斯巴鲁PERFORMANCE-B STI概念车：传奇随时可以复活，无奈量产成本太高

娜扎被抢休息室，网友扒出疑似林允

40岁宋仲基带老婆参加友人婚礼，被误认成徐帆

王楚钦退赛：突然背部不适一度不太能动得了

iCAR苏峻：我们不做夹生饭，不造速生车

8155芯片+L2智驾瑞虎5运动版上市置换补贴价6.79万元起

消息称6.3英寸小屏机或为OPPO Find X9s，将搭载双2亿镜头

中国留学生潜水后失踪妻子4天后报警仅找到一根胫骨

刘欢，早已走上另一条大道

1-10月累计同比增长57.1% 深蓝汽车10月全球销量36792辆

即将空降！26集都市大剧来袭，蒋欣王子文领衔

看了隆妮表演才知道，观众都冤枉杨幂了?

满屏爱张力，现偶活过来了！

TA：从多纳鲁马到塞门约，瓜帅的足球风格已从控球转变为反击

看了日本主妇的搭配才明白，年纪大了这么穿，优雅又不油腻

上海网友在日料店里吃出蛆虫蛆虫还在炸鸡上蠕动

住户睡觉没拔充电器家被烧一两分钟火苗蹿到天花板