谷歌DeepMind推出V2A技术,可从视频中生成配乐和对话

碳材谈科技 2024-06-21 12:42:46

谷歌DeepMind的视频转音频(V2A)技术是对现有从文本提示生成音乐的工具的补充,据说可以读取内容并合成配乐、对话甚至音效。

将视频生成模型的输出变为现实

Google Deepmind 的 V2A 技术将视频像素与自然语言指令相结合,为无声视频生成详细的音轨。谷歌 DeepMind 表示,用户可以使用该工具创建场景,其中包括“戏剧配乐、逼真的音效或与视频的角色和语气相匹配的对话”。

视频生成模型如Google的Veo、OpenAI的Sora、 KLING和Gen 3都能够生成视频,但只有图像和音频必须单独准备。谷歌表示,V2A 可以与这些视频生成模型结合使用,添加戏剧性的音乐、逼真的音效以及与视频的人物和情绪相匹配的台词。除了生成视频之外,它还可以用于为传统素材(例如存档素材和无声电影)添加声音。

另外,如果你把所有视频分析都交给AI,你可能得不到你想要的结果。在这种情况下,文本提示可以告诉您如何重新创建所需的声音、删除或更改不需要的声音。

这个 DeepMind V2A 模型建立在 Diffusion 之上,该团队表示,Diffusion 为同步视频和音频提供了最真实、最令人信服的结果。

V2A 系统首先将视频输入编码为压缩表示。然后,扩散模型在视觉输入和文本提示的指导下,逐渐从随机噪声中细化音频。最后,音频输出被解码,转换为音频波形,并与视频数据组合。

(来源:谷歌)

为了提高音频质量,DeepMind 在训练过程中添加了人工智能生成的声音描述和口语对话转录。通过这种方式,V2A 学习了特定视觉场景的音频事件,并对描述和转录中包含的信息做出响应。

然而,V2A也有一些局限性。例如,音频输出的质量取决于视频输入的质量。如果视频包含模型训练分布之外的伪影或失真,则音频质量可能会显着下降。此外,包含口语的视频的口型同步仍然不稳定。

此外,V2A 尚未普遍可用。 DeepMind 正在收集领先创作者和电影制作人的反馈,以确保它“能够对创意社区产生积极影响”。该公司表示,V2A 在考虑广泛使用之前将经过严格的安全评估和测试。

0 阅读:0

碳材谈科技

简介:感谢大家的关注