JoyHallo京东推出的由音频驱动图像生成视频的数字人模型

JoyHallo是京东最新推出的开源数字人模型，它通过收集来自京东健康国际有限公司员工的29小时普通话视频，创建了jdh-Hallo数据集。

能够根据音频生成逼真的说话视频，特别适合处理普通话的复杂口型和语调，具有跨语言生成视频的能力。

JoyHallo模型采用中国wav2vec2模型进行音频特征嵌入，并提出了一种半解耦结构来捕捉唇部、表情和姿态特征之间的相互关系，

提高了信息利用效率，并加快了推理速度14.3%。

除了普通话，JoyHallo还能够生成英语视频，提供跨语言的视频生成能力。

而且模型能够精确地同步音频，以及视频中的唇部运动，提高视频的真实感。

该项目已经开源，大家可以在项目官网了解详情。

或者在GitHub找到该项目，并且根据操作指南下载到本地进行部署使用。

作为演示，我们可以先在HuggingFace上进行体验，看看它的效果究竟怎么样。

我们在此上传需要生成的图像，最好是正面高清的大头照，面部比例占据整个图像的50%-70%为最佳。

下方则上传音频文件，无论是普通话或者英语都可以。如果你想让图像开口唱歌，就上传合适的歌曲。

值得注意的一点是，上传的音频时长越长，处理生成的时间也就越久。

上传完毕点击下方的Generate按钮开始生成，右侧会看到生成进度。

经测试，6秒的音频文件，生成视频的时长大概在5分钟左右。

截至目前，各大厂商推出的数字人项目层出不穷，可以说在AI领域已经有一席之地了。

对此新推出的数字人项目感兴趣的小伙伴可自行体验。

项目官网:https://jdh-algo.github.io/JoyHallo/

GitHub仓库:https://github.com/jdh-algo/JoyHallo

HuggingFace在线地址: https://huggingface.co/spaces/jdh-algo/JoyHallo

幸福双城资讯网