不二如是 发表于 2024-9-23 11:00:00

AI懂配音了!「Draw an Audio」理解视频内容,生成与画面内容匹配的音频



在线学习:

https://www.bilibili.com/video/BV1kTsUefEW9

DrawanAudio是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。

根据视频内容自动生成匹配的声音效果,类似于电影制作中的Foley艺术。系

统分析视频结合多种输入指令,如文本、视频遮罩和响度信号,生成与视频内容、时间和响度一致的音频。

核心架构包括潜在扩散模型(LDM)、文本条件模型、掩码注意力模块(MAM)和时间-响度模块(TLM),组件共同确保音频生成的高质量和准确性。

为视频内容创作者提供了一个强大的工具,声音设计过程更加高效和灵活。

Draw anAudio的技术原理
**** Hidden Message *****

论文地址:传送门


小甲鱼的二师兄 发表于 2024-9-24 01:54:12

{:5_109:} 厉害

鱼C-小师妹 发表于 2024-9-25 16:06:19

厉害了

不二如是 发表于 5 天前

真的厉害了
页: [1]
查看完整版本: AI懂配音了!「Draw an Audio」理解视频内容,生成与画面内容匹配的音频