轻松让张国荣、赫本唱歌，阿里推出创新视频模型EMO

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

阿里巴巴集团AI研究院推出了一款创新性视频模型——EMO。

用户只需要向EMO提供一张图像、一段音频，就能生成任意时长表情丰富的视频。例如，提供一个张国荣的图像和一首歌曲，就能让其唱歌。

从EMO生成的视频来看，人物嘴型和背景音乐的契合度非常高，表情也非常丰富人物仿佛像“活”了一样，整体效果非常不错。

论文地址：https://arxiv.org/abs/2402.17485

项目地址：https://humanaigc.github.io/emote-portrait-alive/

其实目前有不少AI产品能做出效果，但是有两点很难比肩EMO。一个是嘴型，语音到虚拟人物嘴形的映射非常复杂，不同的语音音素可能需要相似的嘴型，而相同的音素在不同语境下可能需要不同的嘴型表现。

此外，自然语言中的连读、强调和情感也会影响嘴型，使得完美同步更加困难。我们仔细观察一下EMO的嘴型动态效果，在停顿、高音、转音等方面可以完美契合。

另外一个就是时长，常见产品生成的时长在几分钟左右。而EMO可以生成任意时长的视频，并且表情（如皱眉、微笑、撇嘴等）的重叠度很低，也就是说可以让人物看起来更活灵活现不会感到枯燥。

但有一个小瑕疵，生成的视频人物无法改变原始姿态、空间，例如，扭转脖子、摇头等，估计以后会进行优化。

EMO简单介绍

传统技术在捕捉人物表情的全谱和个体面部风格的独特性方面，存在诸多难点。而EMO以扩散模型作为核心框架，直接将音频合成为视频，从而消除了中间表示或复杂预处理的需求。

同时该方法确保视频帧之间的平滑过渡和一致的身份保持，产生高度表现力和逼真的动画效果。

主干网络：稳定控制机制,包括速度控制器和人脸定位器。这两个模块分别提供弱控制信号,调节生成视频的头部运动速度和面部位置,增强视频生成稳定性。

时间模块：使用自注意力捕捉生成序列在时域上的关系,来保证视频的流畅性，并通过塑特征维度,在时间维度上进行自注意力计算。

参考编码：该模块使用ReferenceNet提取输入人像图像的特征表示,为保持生成视频人物身份的一致性提供先验约束，与主干网络结构相似,所以两者表征空间更加兼容，方便提取的参考特征在主干网络的参考注意力层进行融合。

音频编码：通过预训练语音模型对输入音频序列进行编码,得到与视频帧对齐的音频表示序列。这里对每一帧的编码不仅包含该时刻语音信息,还结合了前后若干帧的语频表示,以建模音频对面部运动的影响。

训练流程分为图像预训练、视频训练和速度微调三个阶段。首先预训练图像生成；然后加入时序模块,学习连贯帧生成；最后仅调整速度层,避免与音频特征的关联被破坏。

训练数据方面，EMO使用了超过250小时的音频、视频素材和海量图像，涵盖中文、英文的演讲、电影和电视片段以及唱歌表演等多种内容。

为了测试EMO的性能，研究人员在HDTF数据集上进行了综合测试。结果显示，EMO生成的视频效果超过了DreamTalk、Wav2Lip和SadTalker等目前领先的AI产品。

本文素材来源EMO论文，如有侵权请联系删除

END

幸福双城资讯网