爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

安东尼怒批菲...

你的卫衣该换...

“大衣+毛衣...

韩总理怒斥“...

击落77架！...

新设计兰博...

中佛罗里达大学破解仿真优化难题：让计算机在噪声中找到最优解

桑乔替补登场又被换下，埃梅里：这不是惩罚，而是战术决定

CES2026：吉利将发布最新辅助驾驶等全域AI技术成果

李湘高调炫富再传噩耗，隐私被扒洗不白

上年纪的女人，别总穿运动鞋和恨天高，这样穿鞋子得体又优雅

默茨将率庞大商务团访华被指＂从未如此精心准备出访＂

东体：申花充分利用体能优势，亚冠失利对蓉城士气的打击或许更大

追梦：当勇士保持健康，我认为没有哪支球队是我们无法击败的

出生人口跌破800万，养老金怎么办？

新华社用3点评价李亚鹏：默守公益16年，给社会带来温度和感动

禁毒警察被控走私毒品获刑三年半本人称系＂工作行为＂

量产型Atlas进步巨大，但波士顿动力前途依旧黯淡

“中国巴菲特”晒出苹果持仓，而巴菲特早已减持

朵朵和小酒窝合体出道，才明白她下了一盘大棋

继续引援脚步，记者：北京首钢目前正在接触前NBA球员麦基

杠杆资金流入北方铜业股价创28年新高

4岁走失女童找到参与救援的派出所所长在孩子旁边哭

美陆军部长抵达阿联酋首都与俄“秘密会谈”

海南＂零关税＂豪车引热议保时捷卡宴鲜有符合要求车型

卡其裤+蓝衬衫，简单高级

船员在公海杀同事6个月后跳海潜逃中国海警跨境捉拿

马拉松冠军选手冲线时被拦停强行带离重庆田协通报

全新宝马X5更新归来！起售价下探至不足60万，轴距超3米1，很亲民

同济发布全球首部《工程智能白皮书》，发起“国际工程智能联盟”全球倡议