猜猜哪段是由AI自动完成配音的?99%人都听错了
在线感受:
https://www.bilibili.com/video/BV1mf421v7AY
杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT(Masked Generative Video-to-Audio Transformers),它能够根据无声视频生成与之匹配的音频。
简单来说,就是让计算机“看”一段没有声音的视频,然后“想象”出视频中应有的声音,比如人的对话声、环境声等。
在一些具体的实验和评估,例如在VGGSound数据集上训练模型,并在MUSIC数据集上测试其在音乐合成领域的性能。
这些实验结果表明:**** Hidden Message *****
页:
[1]