谷歌DeepMind推出V2A技术，可从视频中生成配乐和对话

谷歌DeepMind的视频转音频（V2A）技术是对现有从文本提示生成音乐的工具的补充，据说可以读取内容并合成配乐、对话甚至音效。

将视频生成模型的输出变为现实

Google Deepmind 的 V2A 技术将视频像素与自然语言指令相结合，为无声视频生成详细的音轨。谷歌 DeepMind 表示，用户可以使用该工具创建场景，其中包括“戏剧配乐、逼真的音效或与视频的角色和语气相匹配的对话”。

视频生成模型如Google的Veo、OpenAI的Sora、 KLING和Gen 3都能够生成视频，但只有图像和音频必须单独准备。谷歌表示，V2A 可以与这些视频生成模型结合使用，添加戏剧性的音乐、逼真的音效以及与视频的人物和情绪相匹配的台词。除了生成视频之外，它还可以用于为传统素材（例如存档素材和无声电影）添加声音。

另外，如果你把所有视频分析都交给AI，你可能得不到你想要的结果。在这种情况下，文本提示可以告诉您如何重新创建所需的声音、删除或更改不需要的声音。

这个 DeepMind V2A 模型建立在 Diffusion 之上，该团队表示，Diffusion 为同步视频和音频提供了最真实、最令人信服的结果。

V2A 系统首先将视频输入编码为压缩表示。然后，扩散模型在视觉输入和文本提示的指导下，逐渐从随机噪声中细化音频。最后，音频输出被解码，转换为音频波形，并与视频数据组合。

（来源：谷歌）

为了提高音频质量，DeepMind 在训练过程中添加了人工智能生成的声音描述和口语对话转录。通过这种方式，V2A 学习了特定视觉场景的音频事件，并对描述和转录中包含的信息做出响应。

然而，V2A也有一些局限性。例如，音频输出的质量取决于视频输入的质量。如果视频包含模型训练分布之外的伪影或失真，则音频质量可能会显着下降。此外，包含口语的视频的口型同步仍然不稳定。

此外，V2A 尚未普遍可用。 DeepMind 正在收集领先创作者和电影制作人的反馈，以确保它“能够对创意社区产生积极影响”。该公司表示，V2A 在考虑广泛使用之前将经过严格的安全评估和测试。

幸福双城资讯网

谷歌DeepMind推出V2A技术，可从视频中生成配乐和对话

碳材谈科技