JoyHallo是京东最新推出的开源数字人模型,它通过收集来自京东健康国际有限公司员工的29小时普通话视频,创建了jdh-Hallo数据集。
能够根据音频生成逼真的说话视频,特别适合处理普通话的复杂口型和语调,具有跨语言生成视频的能力。
JoyHallo模型采用中国wav2vec2模型进行音频特征嵌入,并提出了一种半解耦结构来捕捉唇部、表情和姿态特征之间的相互关系,
提高了信息利用效率,并加快了推理速度14.3%。
除了普通话,JoyHallo还能够生成英语视频,提供跨语言的视频生成能力。
而且模型能够精确地同步音频,以及视频中的唇部运动,提高视频的真实感。
该项目已经开源,大家可以在项目官网了解详情。
或者在GitHub找到该项目,并且根据操作指南下载到本地进行部署使用。
作为演示,我们可以先在HuggingFace上进行体验,看看它的效果究竟怎么样。
我们在此上传需要生成的图像,最好是正面高清的大头照,面部比例占据整个图像的50%-70%为最佳。
下方则上传音频文件,无论是普通话或者英语都可以。如果你想让图像开口唱歌,就上传合适的歌曲。
值得注意的一点是,上传的音频时长越长,处理生成的时间也就越久。
上传完毕点击下方的Generate按钮开始生成,右侧会看到生成进度。
经测试,6秒的音频文件,生成视频的时长大概在5分钟左右。
截至目前,各大厂商推出的数字人项目层出不穷,可以说在AI领域已经有一席之地了。
对此新推出的数字人项目感兴趣的小伙伴可自行体验。
项目官网:https://jdh-algo.github.io/JoyHallo/
GitHub仓库:https://github.com/jdh-algo/JoyHallo
HuggingFace在线地址: https://huggingface.co/spaces/jdh-algo/JoyHallo