关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro788人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

李湘高调炫富再传噩耗,隐私被扒洗不白

生命之泉的奥秘 浏览 2535

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

静儿时尚达人 浏览 5811

默茨将率庞大商务团访华 被指"从未如此精心准备出访"

环球网资讯 浏览 38718

东体:申花充分利用体能优势,亚冠失利对蓉城士气的打击或许更大

直播吧 浏览 4498

追梦:当勇士保持健康,我认为没有哪支球队是我们无法击败的

懂球帝 浏览 3956

出生人口跌破800万,养老金怎么办?

智本社 浏览 2637

新华社用3点评价李亚鹏:默守公益16年,给社会带来温度和感动

素素娱乐 浏览 2547

禁毒警察被控走私毒品获刑三年半 本人称系"工作行为"

新京报 浏览 24365

量产型Atlas进步巨大,但波士顿动力前途依旧黯淡

汽车公社 浏览 2591

“中国巴菲特”晒出苹果持仓,而巴菲特早已减持

财视传播 浏览 2741

朵朵和小酒窝合体出道,才明白她下了一盘大棋

观察鉴娱 浏览 4264

继续引援脚步,记者:北京首钢目前正在接触前NBA球员麦基

懂球帝 浏览 2770

杠杆资金流入 北方铜业股价创28年新高

21世纪经济报道 浏览 4406

4岁走失女童找到 参与救援的派出所所长在孩子旁边哭

极目新闻 浏览 9601

美陆军部长抵达阿联酋首都 与俄“秘密会谈”

环球网资讯 浏览 3277

海南"零关税"豪车引热议 保时捷卡宴鲜有符合要求车型

每日经济新闻 浏览 30739

卡其裤+蓝衬衫,简单高级

Yuki女人故事 浏览 4242

船员在公海杀同事6个月后跳海潜逃 中国海警跨境捉拿

扬子晚报 浏览 6930

马拉松冠军选手冲线时被拦停强行带离 重庆田协通报

环球网资讯 浏览 114758

全新宝马X5更新归来!起售价下探至不足60万,轴距超3米1,很亲民

小史谈车 浏览 2441

同济发布全球首部《工程智能白皮书》,发起“国际工程智能联盟”全球倡议

上观新闻 浏览 2979
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1