OpenAI的Sora在年初发布震撼人心的演示片后,截至目前都没对公众开放,这给了其他文本生成视频类大模型一个追赶之机,而国内选手决定先行一步。
先是今年4月国产自研的Vidu在中关村论坛亮相,7月30日全面上线;然后是在2024年世界人工智能大会上亮相的快手“可灵AI”,发布一个月后申请使用的用户数超过50万;很快,字节跳动旗下的“即梦AI”也来了…….
国产的“文本-视频”大模型们也快速走向场景应用——可灵辅助创作了《山海经》短片,让这个大模型迅速出圈;即梦也不甘示弱,联合博纳影业出品制作了AIGC科幻短剧集《三星堆:未来启示录》。
除了专业合作,国产视频模型们也在追赶面向大众的速度。近日,可灵正式对公众开放,支持文本和图片生成视频,充值会员比免费用户多解锁更多视频生成权限,会员费每年最低396元。
Sora发布时,可灵连名字都还没有,如今向大众开放并迅速商业化,它的实力能跟得上吗?我们实测发现,这款“中国版Sora”还真有两把刷子。
「可灵」能力出圈海外OpenAI的Sora何时向大众开放还没有时间表,快手“可灵”来了个“弯道超车”,先让国内用户用上了视频大模型——7月末,可灵正式开放,登陆即可免费使用,不仅支持文本生成视频,还能实现图片生成视频。
可灵这次不仅面市快,商业化落地也十分利索。与大多数AI生成工具类似,非会员用户每天有66灵感值,大约可用文本描述生成6条5秒时长的视频,想要解锁更多次数和更长的视频,则需升级为付费会员。此外,快手还将可灵与自家的视频创作者工具“快影”绑定,用户可免费使用。
《元宇宙日爆》实测这款“国产Sora”后发现,可灵的视频生成能力不俗。
首先是文本生成视频功能,用户输入提示词后描述想要生成的画面,可灵提供了几个可控参数以调整生成效果,参数模块包括“创意想象力和创意相关性”、“生成模式”、“生成时长(最长十秒,仅会员支持)”、“视频比例”、“运镜控制(特殊运镜需要会员)”等等,生成等待的时间一般在2-5分钟。
我们输入提示词“一个可爱的小男孩在用筷子吃面条”并设定为“写实风格”
效果着实令人惊艳:人物的动作自然,无论是握筷子的姿势、翘起的食指以及吃面的嘴部动作,都拿捏地恰到好处,孩子吃饭时嘴边的饭粒、手指粘到汤等特点也与人物本身的年龄表现贴合。难得的是,画面没有出现“六指怪”,只是在大拇指的处理上略显模糊。
同样的提示词,我们让可灵换了个风格,生成一个动漫版的小孩吃面,并将创意想象力的参数调高
视效没什么大问题,画风有点“年代感”,整体没有写实版惊艳。我们猜测,可灵长处可能正是在写实。
随后,我们换了提示词——两只浣熊在雪地里打雪仗,测测可灵对空间关系的把握
结果证明,画面虚实结合较为合理,两只浣熊位置表现自然,可灵对空间关系的理解没有出错,在“以假乱真”方面确实有一手。
这样的能力表现加上开放快速,可灵现在已经从国内火到了海外,有海外网友在社交媒体上手把手教人注册快手并申请可灵的试用权限。X上,关注AI应用的KOL @ARTiV3RSE对可灵来了一波怒赞,“Kling AI is pretty wild!(可灵AI 相当狂野!)”
VideoTetris框架是秘密武器在实测的所有生成视频中,可灵对空间关系的理解的确较其他视频模型表现更优,这和它采用的框架有关。
与 Sora 类似,可灵将常用于生成式视频的扩散模型与Transformer架构相结合,不同点在与,可灵创新采用了VideoTetris框架,该框架更擅长生成具有渐进式构图的长视频,可将新角色无缝集成到视频场景中,同时保持一致性以及准确的位置、数量等信息。这就是为什么可灵能够精准处理小男孩的细微动作和两只浣熊的前后关系。
VideoTetris 为何能帮助大模型更好地理解空间位置?
可灵视频生成模型的负责人万鹏飞带领团队公开发表的《VideoTetris:Towards Compositional Text-to-Video Generation》论文显示,该架构通过在空间和时间上操纵并组合去噪网络的注意力图,从而精确遵循复杂的文本语义。论文称,这种“组合区域扩散方法”,能通过使用交叉注意力图来明确地建模对象的空间位置,这一方法允许对象在去噪过程中自然地整合和融合,从而产生更真实、更连贯的视频输出。
此外,研究人员还提出了一种增强的视频数据预处理方法,加强了有关运动动力学和快速理解的训练数据,并配备了一种新的参考帧注意机制,从而提高了自回归视频生成的一致性。
可以说,VideoTetris框架一定程度上帮助AI模型建立了对物体空间关系的理解方法,进而让采用它的可灵能够很好地将物体放在较为正确的空间位置上。
而可灵能能够快速推出的关键优势正是快手。
作为国内短视频赛道的头部平台,快手具备为可灵提供海量视频数据的基础。
基于算法推荐的逻辑,数据标注对于短视频平台来说是个基本工作。快手的数据团队成员曾介绍,“最早,快手在全国各地都有很多标注基地,纯劳动密集型,一部分做审核、一部分做标注。最近几年算法越来越精准,从‘一个男人’的‘是或否’进化到了‘一个外国男人、穿着西装、金发’的‘是或否’,而这些视频数据是训练基础模型的第一步。”
有算据,有算法,相较OpenAI的Sora,可灵在AI视频生成模型的赛道上具有得天独厚的条件。这也就不难理解在AI视频领域快手能先人一步了。