JoyHallo京东推出的由音频驱动图像生成视频的数字人模型

贰柒AI 2024-10-06 11:51:27

JoyHallo是京东最新推出的开源数字人模型,它通过收集来自京东健康国际有限公司员工的29小时普通话视频,创建了jdh-Hallo数据集。

能够根据音频生成逼真的说话视频,特别适合处理普通话的复杂口型和语调,具有跨语言生成视频的能力。

JoyHallo模型采用中国wav2vec2模型进行音频特征嵌入,并提出了一种半解耦结构来捕捉唇部、表情和姿态特征之间的相互关系,

提高了信息利用效率,并加快了推理速度14.3%。

除了普通话,JoyHallo还能够生成英语视频,提供跨语言的视频生成能力。

而且模型能够精确地同步音频,以及视频中的唇部运动,提高视频的真实感。

该项目已经开源,大家可以在项目官网了解详情。

或者在GitHub找到该项目,并且根据操作指南下载到本地进行部署使用。

作为演示,我们可以先在HuggingFace上进行体验,看看它的效果究竟怎么样。

我们在此上传需要生成的图像,最好是正面高清的大头照,面部比例占据整个图像的50%-70%为最佳。

下方则上传音频文件,无论是普通话或者英语都可以。如果你想让图像开口唱歌,就上传合适的歌曲。

值得注意的一点是,上传的音频时长越长,处理生成的时间也就越久。

上传完毕点击下方的Generate按钮开始生成,右侧会看到生成进度。

经测试,6秒的音频文件,生成视频的时长大概在5分钟左右。

截至目前,各大厂商推出的数字人项目层出不穷,可以说在AI领域已经有一席之地了。

对此新推出的数字人项目感兴趣的小伙伴可自行体验。

项目官网:https://jdh-algo.github.io/JoyHallo/

GitHub仓库:https://github.com/jdh-algo/JoyHallo

HuggingFace在线地址: https://huggingface.co/spaces/jdh-algo/JoyHallo

0 阅读:0

贰柒AI

简介:专注AI领域,每天分享新鲜好玩的AI工具,全网同名