阿里AI新技术,让普通人秒变舞蹈达人

科技劈里啪啦 2024-01-08 19:50:02

2024年一开年,社交媒体和朋友圈就被一系列惊艳舞蹈视频占领了。钢铁侠跳起了科目三,马斯克也在摆着网红舞步,这些大约10秒的视频都是借助大模型技术制作的,轻松让任何人或角色变成舞蹈达人,掀起了一阵斗舞狂潮。

网友们对于人工智能创作工具的一键生成能力感到惊叹,表示AI治愈了自己的四肢不协调,甚至连考古界都感受到了科目三的风潮。现在,只需一张照片,每个人都能轻松变身为舞蹈大师,不再需要亲自上场跳舞!

这正是阿里巴巴推出的黑科技——Animate Anyone视频生成模型所做的事情。自去年11月以来,这个让图片动起来的创新工具在Twitter和YouTube上火得一塌糊涂,相关视频的播放量都突破了1亿次,而且在GitHub上的关注度也飙升,超过了1万Star。国外的网友和开发者对这个技术赞不绝口,都期待着更多的体验机会。

使用Animate Anyone也很简单,通过打开「通义千问」APP,输入"通义舞王"或"全民舞王",选择喜欢的舞蹈模板,并上传一张全身照片,系统就能生成约10秒的舞蹈视频。这项技术能够处理真人、动漫或卡通角色的图片,轻松实现科目三、鬼步舞或兔子舞等流行舞蹈,并提供了12种热门舞蹈模板供用户选择,让每个人都能成为舞蹈达人,而且完全免费。

以往在视频制作中,让人物动作既流畅又自然一直是个难题,但阿里的Animate Anyone技术却做到了。它不仅能精确捕捉角色的每个细节,比如面部表情和服装纹理,而且让动画中的角色动作平滑自然,看起来和原图一样逼真。这在视频生成领域,尤其是在处理人物动作上,无疑是AI动画的一个重大突破。

Animate Anyone制作图像动画是如何实现的?

在视频生成这个大模型领域的热点中,谷歌、Meta和Runway等大牌也在搅动水花。但要说难点,就是让视频里的人物动作既真实又流畅,一直是个技术大关。

以前的技术,比如基于GAN的方法,虽然也能让图片动起来,但常常会出现一些问题,像是图片的某部分变得扭曲或者模糊,或者动画的每一帧之间看起来不够连贯。这就好像是你看一部电影,发现里面的人物忽然变形了,或者画面突然跳跃,感觉就很奇怪。

而这次,阿里的研究团队提出了一种解决方案,就是Animate Anyone。这个技术能把任何角色的图片转化成一段遵循特定姿势序列的动画视频。他们利用了Diffusion的网络设计,这个网络能处理多帧输入,也就是说,它能同时考虑到视频中的多个画面。

据阿里公开论文透露,Animate Anyone融合了多项创新技术,其中包括引入的ReferenceNet,这个网络专注于捕捉并保留原始图像信息,能够精准还原人物的外观、表情和服装细节。另外,它还运用了高效的Pose Guider姿态引导器,确保动作的精确度和可控性;同时,通过其时间序列生成模块,有效地确保视频帧之间的流畅连贯。

感兴趣的朋友,还可以前往了解体验更多。

项目地址:https://humanaigc.github.io/outfit-anyone/

体验地址:https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

Animate Anyone 框架

这项技术经过超过5000个角色视频剪辑的数据集训练,效果自然逼真,能够保持视频中人物的外观和动作的时间一致性,生成无抖动或闪烁的高清视频。在性能测试中,Animate Anyone在时尚视频合成和人类舞蹈生成方面表现优于其他模型,无需额外人体掩码学习,这也展示了其强大的前景和背景关系理解能力及动作的视觉连贯性。

为了展示这种差异,我们以一张静态照片为例。

从直观感受来看,DreamPose 和 BDMM 在保持服装纹理细节方面有所欠缺,动作的连贯性和闪烁问题较为明显。相比之下,Animate Anyone则表现得像真人模特般自然流畅,衣服的纹理保持得很好,甚至连腿部衣裙的开衩都处理得非常精准,细节展现得更为到位。

Animate Anyone有哪些实际应用价值?

Animate Anyone技术,推动的不仅是人工智能研究领域的进步,而是跨越了各个行业的界限,从在线零售到娱乐视频制作,再到艺术创作和虚拟角色开发,它为各种应用场景提供了新的可能性。

该团队推出的虚拟试衣间Outfit Anyone就是一个例证,当搭配上Animate Anyone,这款虚拟试衣间技术不仅使得个性化服装搭配变得易如反掌,这也意味着无论你是谁,无论你喜欢的风格如何,都可以找到适合你的虚拟试穿体验。而且它还能适应各种体型,从健身型到曲线型,甚至是娇小型,让每个人都能在这个虚拟试衣间找到适合自己的特色风格。

此外,结合Animate Anyone技术,AI动漫人物绘画生成的门槛被大大降低,让普通人也能轻松创作出多样化的动漫角色。用户可以根据自己的偏好,自由搭配角色的面部、服装、配饰和背景,创造出具有个性和魅力的二次元角色。

以及,随着数字人技术的发展和成本的降低,Animate Anyone技术也在虚拟数字人的领域中大放异彩,从新闻播报到客服、讲解等领域的应用不断拓展,预计到2026年,中国虚拟数字人市场规模将达到102.4亿元。用户可以通过定制功能,创建符合自己需求的数字化身,进一步推动数字人在更广阔领域的应用。

过去一年,AI技术如同超速列车,从文字和代码创作,到电影级高清制作,再到如今的视频生成,AI不仅仅是技术界的多面手,更是变革的先锋。

在这场技术浪潮中,视频生成技术尤其引人注目,从Runway的Gen-2模型到Meta的Emu Video,再到Stability AI的Stable Video Diffusion,每一步进展都是界限的拓宽,国内的字节和华为也展现出中国科技的创新实力,纷纷推出引人注目的应用,不断拓宽行业界限。

阿里在这场竞赛中同样表现出色,将Animate Anyone整合进通义千问APP,使舞蹈视频合成变得触手可及。这不仅代表了技术上的突破,更预示着生活方式的转变。随着AI的不断进步,我们正迎来一个新时代,见证生成式AI如何改变我们的工作和创造方式。阿里无疑将继续在这场技术变革中发挥重要作用。

0 阅读:0

科技劈里啪啦

简介:感谢大家的关注