Meta“MovieGen”人工智能系统可以从一张照片中制作深度伪造视频

黑客部落 2024-10-08 12:02:30

Meta的新“Movie Gen”人工智能系统可以从一张照片中制作深度伪造视频 一个未来,逼真的虚假视频变得轻而易举且普遍存在似乎是不可避免的。

上周,Meta宣布推出了Movie Gen的预览版,这是一套新的人工智能模型,旨在创建和操纵视频、音频和图像,包括从一个人的单张照片创建逼真的视频。

该公司声称在人类评估时,这些模型优于其他视频合成模型,将我们拉近了一个未来,任何人都可以根据需要合成任何主题的完整视频。

公司目前尚未计划何时以及如何向公众发布这些功能,但Meta表示,Movie Gen是一个可以让人们“增强他们与生俱来的创造力”的工具,而不是取代人类艺术家和动画师。

公司设想未来的应用,例如轻松创建和编辑社交媒体平台上的“生活中的一天”视频,或生成个性化的动画生日祝福。

Movie Gen是基于Meta先前在视频合成方面的工作发展而来,继承了2022年的Make-A-Scene视频生成器和Emu图像合成模型。

利用文本提示进行引导,这一最新系统首次可以生成带有声音的自定义视频,编辑和插入现有视频的变化,并将人物的图像转换为逼真的个性化视频。

使用Meta Movie Gen创建的一段婴儿河马游动的AI生成视频。

在AI视频合成领域,Meta并非唯一的竞争者。

谷歌在五月展示了一个名为“Veo”的新模型,Meta表示在人类偏好测试中,其Movie Gen的输出超过了OpenAI的Sora、Runway Gen-3和视频模型Kling。Movie Gen的视频生成模型可以根据文本描述或图像输入创建1080p的高清视频,每秒16帧,长达16秒。

Meta声称该模型可以处理像物体运动、主客体互动和摄像机运动等复杂概念。

通过Meta Movie Gen生成的AI视频,文本提示为:“一个穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵在一间灰尘飞扬的阁楼上,到处是古老的横梁和布满布料的家具。阁楼在镜子中有所映射。灯光明亮而自然。幽灵在镜子前跳舞。”

然而,正如我们之前看到的AI视频生成器一样,Movie Gen生成特定主题的连贯场景的能力很可能取决于Meta用于训练视频合成模型的示例视频中发现的概念。

值得注意的是,从视频生成器中精选的结果往往与典型结果有很大的不同,获取连贯的结果可能需要大量的尝试和错误。

说到训练数据,Meta表示他们对这些模型进行了“许可和公开可用数据集”的组合训练,这很可能包括多年来Facebook和Instagram用户上传的视频,尽管这只是基于Meta当前政策和以往行为的推测。视频深度伪造的新先锋 Meta称Movie Gen的关键特性之一是“个性化视频创作”,但自2017年以来,已经有另一个名字:深度伪造。

深度伪造技术引起了一些专家的警惕,因为它可以用来模拟真实的相机镜头画面,使人们看起来做了他们实际上并没有做的事情。使用Movie Gen制作的深度伪造视频,文本提示为:“一个女人坐在南瓜地的草地上。她戴着围巾,手里拿着一杯。背景是一排排的南瓜。”源照片位于右上角。

在这种情况下,使用Movie Gen制作深度伪造视频似乎非常简单,只需提供一个人的单张输入图像,以及描述您希望他们在生成的视频中做什么或身处何处的文本提示。系统会生成一段以该个体为特色的视频,旨在保留他们的身份和动作,同时结合提示中的细节。

使用Movie Gen制作的深度伪造视频,文本提示为:“制作一个可爱的自拍视频,有一个男人和他的狗。男人穿着一件黑色衬衫。狗是一只小猎犬小狗。背景是一个充满树木的后院庭院。男人满脸笑容,试图和他的狗拍摄完美的自拍。光线温暖。”源照片位于右上角。

这项技术可以以多种方式被滥用,包括制作羞辱视频,让人陷入尴尬的虚假情境,捏造历史背景,或生成深度伪造的色情视频。这使我们更接近一个文化奇点,其中媒体中的真实和虚构在没有更深层背景的情况下是无法分辨的,这是由于AI媒体合成的流动性和最终的实时性。

今年四月,微软展示了一款名为VASA-1的模型,它可以根据单张照片和单声道音轨创建一个逼真的人物视频,但是Movie Gen通过在视频场景中放置一个深度伪造的人物进一步扩展了这一技术。

然而,Movie Gen似乎尚未生成或同步语音。编辑和声音合成 Meta还展示了Movie Gen的视频编辑组件,它可以根据文本指令对现有视频进行精确修改。它可以执行像添加或移除元素这样的局部编辑,以及进行全局的修改,比如改变背景或整体风格。

Movie Gen视频到视频编辑功能的示例,可以在现有视频中插入或删除对象。此外,到目前为止,我们使用的每个视频合成模型都创建了无声视频。

Meta正在通过一个单独的音频生成模型为AI视频带来声音合成,该模型能够根据文本提示为视频内容生成环境声音、音效和背景音乐,保持整体的连贯音频。该公司声称该模型可以为任何长度的视频生成音频。

使用AI生成的视频,搭配由AI生成的配乐,文本提示为:“飒飒的树叶和噼啪作响的树枝,伴有管弦乐配乐。” 尽管有了这些进展,Meta承认当前的模型存在局限性。

公司计划通过进一步扩展模型来加快视频生成速度并提高整体质量。您可以通过Meta今天发布的研究论文了解有关Movie Gen模型如何工作的更多信息。

Meta还计划与电影制作人和创作者合作,将他们的反馈整合到模型的未来版本中。

然而,去年SAG-AFTRA演员工会的警告以及一些行业专业人士对视频合成产生分歧的反应之后,我们可以想象到,并非所有的反馈都会是积极的。

关注【黑客联盟】带你走进神秘的黑客世界
0 阅读:12

黑客部落

简介:计算机安全技术分享,网络安全攻防技术分享