爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

工业知识联盟...

杨振宁先生缅...

纯纯诈骗剧，...

算法工程师想...

国米官方：劳...

百年变局之下...

拜登似是怕特朗普与中国“合作”？

三种版本可选吉利银河星耀7续航信息曝光

第138届广交会10月15日开幕，约3600家企业首亮相，首设智慧医疗专区

【年度爱用】她们2025年买得最值的，是这些

尤文啃下硬骨头斯帕莱蒂拿到“最重要的胜利”

国外产子，知三当三，江疏影传闻哪个是真的

落地“好房子”，龙湖2025年交付近7万套品质房源

问界新M5 Ultra全新一轮OTA升级 ADS 4全面上车

二手车商称雷军在吹牛：现在有的车型降10万都没人要

没入选巴西国家队，恩德里克在国际比赛日期间前往摩洛哥度假

福特中国，需要的不止是更换“公关一号位”

全球最大稳定币遭质疑标普将评级降至“最差一档”

为财政刺激计划融资，日本拟增发逾11.5万亿日元新债

CES2026开幕，英伟达黄仁勋提到多个中国大模型，这些中国产品将亮相

柏林联合主帅埃塔期待与前帅菲舍尔重逢

郭晶晶就个人发展问题最新发声

召集全球高级将领开会前美军试射4枚导弹

海盗船发布《使命召唤：黑色行动 7》联名外设，含键盘等多款产品

零跑Lafa5：一副钢炮的皮，一颗家用的心？

全新MG4、极狐T1和缤果S，都上市不久，分别卖得怎么样？

大姐答应给30万拆迁款未兑现 56岁弟弟当保安至今单身

ED网红病，正在掏空年轻女性

奥运冠军江旻憓将参加香港立法会选举申请放弃加护照

达利欧：AI热潮处于泡沫初期，美联储或进一步吹大泡沫