CVPR2024获奖最佳论文:生成图像动力学

独角也有噬元兽 2024-06-22 16:21:26

6 月 17 日至21日,计算机视觉与模式识别会议(CVPR)在美国西雅图举行,这一届会议已经成为CVPR历史上规模最大、参与人数最多的一次。根据官方公告,截至6月20日,现场参会人数已经超过了12,000人。

本届会议的论文提交数量也达到了一个新高度,共有11,532篇论文提交,录用率为23.58%,相比去年的9,155篇,增加了近2,000篇。这一数据的增长反映了计算机视觉领域研究活动的蓬勃发展和科研社区对于AI前沿话题的持续关注。

在人工智能领域,图像动力学的生成是一个充满挑战的前沿话题。它涉及到如何从静态图像中提取和模拟自然界中物体的动态变化,这不仅对理解视觉世界的复杂性至关重要,也对提升计算机视觉系统的认知能力和创造力具有深远的影响。CVPR 2024的最佳论文《Generative Image Dynamics》正是在这一领域取得了突破性进展,提出了一种全新的方法,通过单张静态图像生成自然振荡动画,为图像合成和视频生成开辟了新的研究方向。

《Generative Image Dynamics》由Google Research的Zhengqi Li、Richard Tucker、Noah Snavely和Aleksander Holynski共同撰写。这篇论文提出了一种基于图像空间的场景运动生成模型,该模型能够从单张RGB图像生成光谱体积,进而转换成动态纹理,用于生成无缝循环视频或响应用户输入的交互式动态模拟。这一技术的核心在于其对场景中自然振荡动态的捕捉能力,以及通过先进的扩散模型预测和基于图像的渲染技术,实现了从静态到动态的高质量转换。论文的方法在技术上展示了AI在图像处理领域的新突破,并为未来的多媒体内容创作提供了新的工具和思路。

主要贡献包括:

1.提出了一种新的图像空间运动先验,能够从单张图像生成自然振荡动画。

2.使用扩散模型预测光谱体积,通过频率协调的采样过程,生成可以转化为整个视频的动态纹理。

3.设计了基于图像的渲染模块,用于多种下游应用,如将静态图像转换为无缝循环视频,或允许用户与真实图像中的对象进行交互,产生逼真的模拟动态。

论文强调与原始RGB像素的先验相比,运动先验能够捕捉更基本、更低维度的结构,从而更有效地解释像素值的长期变化。因此生成中间运动可以带来更连贯的长期生成和对动画的更细致控制。作者展示了他们训练的模型在创建无缝循环视频、编辑生成的动作和通过图像空间模态基底启用交云动态图像等多个下游应用中的使用。

相关工作

最新的生成模型已经能够根据文本提示合成逼真的图像。这些文生图模型可以扩展到视频序列的合成,但这些视频通常存在运动不连贯、纹理的不真实时间变化和物理约束(如质量守恒)的违反等问题。

一些技术采用静态图片作为输入,并通过基于图像的渲染技术来动画化它。这些方法产生的动画在时间上更连贯、更真实,但需要额外的引导信号或用户输入,或使用有限的运动表示。

图1:我们在场景运动之前对生成图像空间进行建模:从单个RGB图像中,我们的方法生成光谱体积,这是一种在傅立叶域中对密集的长期像素轨迹进行建模的运动表示。我们学习的运动先验可以用于将单个图片转换为无缝循环的视频,或者转换为响应用户输入(如拖动和释放点)的动态交互模拟。在右边,我们将输出视频可视化为时空X-t切片(沿着左边显示的输入扫描线)。

在计算机图形学中,自然的振荡3D运动(例如水波纹或树木在风中摇摆)可以通过在傅里叶域中塑形的噪声来模拟,然后转换为时域运动场。作者们的工作特别受到Davis等人的启发,他们将场景的模态分析与视频中观察到的运动联系起来,并使用这种分析来模拟视频中的交互动态。

某些移动场景可以被视为一种纹理——称为动态纹理——它们将视频建模为随机过程的时空样本。与之相关的视频纹理则将移动场景表示为一组输入视频帧及其之间的转换概率。与大多数相关工作不同,我们的方法提前学习先验,然后可以应用于单张图像。

,时长00:09

视频 1:我们的方法在场景动态上对图像空间进行建模,可用于将单个图像转换为无缝循环视频或交互式动态场景。

我们的目标是从单张图片 I_0生成一个包含振荡运动(如树木、花朵或蜡烛火焰在微风中摇曳)的视频。我们的系统由两个模块组成:运动预测模块和基于图像的渲染模块。我们的流程首先使用潜在扩散模型(LDM)为输入 Io 预测一个光谱体积。预测的光谱体积然后通过逆离散傅里叶变换转换为运动纹理。这个运动决定了每个输入像素在未来每个时间步的位置。给定一个预测的运动纹理,我们然后使用神经基于图像的渲染技术来动画化输入的RGB图像。我们探索了这种方法的应用,包括制作无缝循环动画和模拟交互动态。

技术细节

作者们提出了一种创新的方法,通过单张静态图像来生成具有自然振荡特性的动态视频。这一技术的核心在于两个关键概念:运动纹理与光谱体积、频率自适应归一化和频率协调去噪。

,时长00:05

视频 2:我们的方法可以自动将单个静止图像转换为无缝循环视频。

运动纹理与光谱体积

运动纹理是指一系列随时间变化的2D位移图,它们描述了从初始图像到未来每一帧图像的像素位移。在传统的视频处理中,这种位移通常是通过光流算法来估计的。然而这篇论文采取了一种不同的方法,它将这些位移图转换为频率域的表示——光谱体积。

光谱体积是通过对每个像素的运动轨迹进行傅里叶变换得到的。这种表示形式能够捕捉到场景中的自然振荡运动,如树叶的摆动或水波的荡漾。通过这种方法,即使是静态图像,也能预测出其潜在的动态特性。

频率自适应归一化

在将运动纹理转换为光谱体积的过程中,一个关键的步骤是归一化。由于自然运动通常包含大量的低频成分,高频成分的幅度相对较小,直接归一化可能会导致高频信息的丢失。为了解决这个问题,论文提出了一种频率自适应归一化方法。

这种方法首先独立地对每个频率的傅里叶系数进行归一化,然后对每个缩放的傅里叶系数应用幂变换,以避免极端值。这样不同频率的信息得到了平衡的处理,从而保留了更多的运动细节。

频率协调去噪

在预测光谱体积时,论文采用了一种频率协调去噪策略。这种策略的核心在于,它不是独立地预测每个频率切片,而是通过在潜在扩散模型中注入额外的频率嵌入来协调不同频率之间的预测。

这种方法的优势在于,它能够保证预测出的运动在不同频率上是连贯的,从而生成更加真实和自然的动态视频。这一点在自然场景的动态模拟中尤为重要,因为真实世界中的运动往往是多频率的复合体。

通过这些技术的综合应用,论文成功地从单张静态图像中生成了具有丰富动态特性的视频。这不仅在技术上展示了AI在图像处理领域的新突破,也为未来的多媒体内容创作提供了新的工具和思路。

运动纹理:运动纹理是一系列随时间变化的2D位移图F={Ft∣t=1,...,T},其中每个像素坐标p的2D位移向量Ft(p)定义了输入图像Io中该像素在未来时间t的位置。

频率空间表示:自然运动可以被描述为少数几个不同频率、振幅和相位的谐波振荡器的叠加。因此,采用频率域模型来表示视频中的运动,称为光谱体积,即视频中每个像素轨迹的时间傅里叶变换。

多模态图像到图像翻译任务:将输入图像转换为输出运动光谱体积。使用潜在扩散模型(LDMs)生成由4K通道2D运动频谱图组成的光谱体积,其中K<<T是模型化的频率数量,每个频率需要四个标量来表示x和y维度的复数傅里叶系数。

使用扩散模型预测运动:选择潜在扩散模型作为运动预测模块的主干,因为LDM在保持合成质量的同时,比像素空间扩散模型更具计算效率。LDM由两个主要模块组成:(1) 变分自编码器(VAE),通过编码器将输入图像压缩到潜在空间,然后通过解码器从潜在特征重建输入;(2) 基于U-Net的扩散模型,学习从高斯噪声开始迭代去噪特征。

图3:运动预测模块。我们通过频率协调去噪模型来预测光谱体积S。扩散网络的每个块θ将2D空间层与注意力层交错(红框,右),并迭代地对潜在特征z n进行去噪。去噪的特征被馈送到解码器D以产生S。在训练期间,我们经由编码器E将下采样的输入I0与从真实运动纹理编码的噪声潜在特征连接,并且在推断期间用高斯噪声z N替换噪声特征(左)。

训练损失:LDM的训练损失为

LLDM=En∈U[1,N],ϵn∈N(0,1)∣∣ϵn−θ(zn;n,c)∣∣2,其中c是任何条件信号的嵌入,例如文本,或者在我们的案例中,是训练视频序列的第一帧Io。然后将干净的潜在特征Zo通过解码器来恢复光谱体积。

图4。渲染模块。我们使用基于深度图像的渲染模块来填充缺失的内容并细化扭曲的输入图像,其中从输入图像I0中提取多尺度特征。然后在具有从时间0到t的运动场Ft的特征上应用Softmax飞溅(服从权重W)。扭曲的特征被馈送到图像合成网络以产生渲染图像I Plot t。

这些技术细节展示了如何利用先进的AI技术来预测和生成自然运动,为未来的图像和视频合成提供了新的可能性。

应用场景

在这篇论文中,作者们不仅提出了一种创新的技术框架,还展示了其在多个应用场景中的实际效果。

,时长00:07

视频 3:我们可以使用Davis 等人的模态 分析来模拟物体动态对交互式用户激励的响应 ,将生成的频谱体积解释为图像空间模态基础。

图像到视频

在这一应用场景中,论文展示了如何将单张静态图片转换为动态视频。这一过程首先涉及到从输入图像预测运动光谱体积,然后通过基于图像的渲染模块将光谱体积转换成运动纹理,最终生成动画。这种方法的关键在于,它能够捕捉和再现场景中的自然振荡运动,如树木摇摆或水面波动,从而创造出逼真的动态视频。这一技术的实际应用前景非常广泛,从电影特效到虚拟现实,都能够利用这种方法来增强视觉体验。

图5:通过不同方法生成的视频的X-t切片。从左到右:来自地面实况视频的输入图像和相应的X-t视频切片,来自由三个基线生成的视频[27,29,46,92],最后是由我们的方法生成的视频。

无缝循环

无缝循环视频在许多领域都有着重要的应用,例如在广告、艺术展示和社交媒体中。论文中提出的方法能够生成在视觉上无缝连接的循环视频,这意味着视频的起始帧和结束帧之间没有可感知的过渡。这是通过在运动去噪采样过程中引入额外的循环约束来实现的,确保了每个像素在视频开始和结束时的位置和速度尽可能相似。这种技术的创新之处在于,它不需要预先存在的循环视频作为训练数据,而是可以从常规的非循环视频片段中学习并生成循环视频。

单图交互动态

采用模态分析方法,允许将图像空间的2D运动位移场表示为运动频谱系数Sfj的加权和,这些系数由每个模拟时间步长t的复杂模态坐标qfj(t)调制:

Ft(p)=fj∑Sfj(p)qfj(t)

该方法从单张图片产生交云场景,而先前的方法需要视频作为输入。

单图交互动态是指从单张图片中生成可以响应用户输入的动态场景。论文中采用了模态分析方法,允许通过权重和运动频谱系数的组合来模拟物体对用户定义力的响应。这种方法的潜在应用包括在游戏设计中创建更加互动的环境,或在教育软件中模拟物理现象。这一技术的突破在于,它不需要视频作为输入,而是可以直接从静态图像中产生交互式的动态效果。

实验与评估

作者们通过一系列的实验和评估来验证他们提出的方法的有效性和优越性。使用潜在扩散模型(LDM)作为预测光谱体积的主干,采用VAE、多尺度梯度一致性损失和KL散度损失进行训练。对于定量评估,使用256×160大小的图像进行训练,并使用DDIM进行250步的运动扩散模型运行。此外,还展示了通过在数据集上微调预训练的图像修复LDM模型生成的高达512×288分辨率的视频。

,时长00:05

视频 4:我们可以通过调整运动纹理的幅度来缩小(顶部)或放大(底部)动画运动。

收集并处理了3,015个展示振荡运动的自然场景视频,其中10%用于测试,其余用于训练。使用粗到细的流方法提取真实运动轨迹,并从每个视频的每10帧中提取输入图像,计算出接下来149帧的运动轨迹,得到相应的真实光谱体积。

与最近的单图动画和视频预测方法进行比较,包括Endo等人和DMVFN预测瞬时2D运动场并自回归渲染未来帧,Holynski等人通过单一静态欧拉运动描述模拟运动。其他工作如Stochastic I2V、TATS和MCVD采用VAE、变压器或扩散模型直接预测原始视频帧;LFDM通过预测流量体积和在扩散模型中变形潜在变量来生成未来帧。

使用Frechet Inception Distance (FID)和Kernel Inception Distance (KID)来评估合成帧的质量,以及Frechet Video Distance (FVD)和Dynamic Texture Frechet Video Distance (DTFVD)来评估合成视频的质量和时间连贯性。

论文中的定量结果部分展示了该方法与其他现有技术的比较。使用了多种评估指标,包括Frechet Inception Distance (FID)、Kernel Inception Distance (KID)、Frechet Video Distance (FVD) 和 Dynamic Texture Frechet Video Distance (DTFVD),这些指标能够衡量生成图像和视频的质量以及时间连贯性。论文的方法在所有指标上都显示出显著的优势,特别是在FVD和DTFVD上,这表明生成的视频不仅在视觉上更加逼真,而且在时间上更加连贯。

定性结果部分通过可视化的方式展示了生成视频的质量。论文中采用了时空X-t切片的形式来展示小运动,这是一种标准的视频质量可视化方法。从这些切片中可以看出,论文提出的方法生成的视频动态与真实参考视频的运动模式非常相似,而其他方法生成的视频则存在明显的不真实感和失真。

消融研究部分是论文中对其方法进行自我评估的重要环节。通过对比不同配置下的结果,论文验证了其设计选择的有效性。例如,论文测试了不同数量的频率带对视频预测质量的影响,并发现超过16个频率带后,改进的效果边际递减。此外,论文还探讨了去除自适应频率归一化、独立预测频率切片以及使用单一2D U-net扩散模型预测的效果,结果表明这些简化或替代配置都导致了性能的下降。

讨论与结论

在这篇论文中,作者们提出了一种从单张静态图像生成动态视频的新方法。这项研究的重要性在于其对自然振荡动态的捕捉和再现能力,这不仅在技术层面上是一个突破,也为实际应用如电影特效、游戏开发和虚拟现实等领域提供了新的可能性。

然而论文也讨论了其方法的局限性。首先由于预测的是光谱体积的低频部分,该方法可能无法模拟非振荡运动或高频振动。其次,生成视频的质量依赖于底层运动轨迹的质量,这可能在场景中包含细小运动物体或大位移物体时降低。此外,即使运动预测正确,需要生成大量未见内容的场景也可能导致质量下降。

他们的方法仅预测光谱体积的低频部分,可能无法模拟非振荡运动或高频振动。此外生成视频的质量依赖于底层运动轨迹的质量,这可能在具有细小运动物体或大位移物体的场景中降低。作者们提出了一种新方法,用于从单张静态图片建模自然振荡动态。他们的图像空间运动先验以光谱体积表示,这是每个像素运动轨迹的频率表示,他们发现它对于使用扩散模型的预测是高效且有效的,并且我们从真实世界视频的集合中学习。光谱体积使用频率协调的潜在扩散模型预测,并通过基于图像的渲染模块用于动画化未来的视频帧。我们展示了我们的方法可以从单张图片产生逼真的动画,并显著优于之前的基线,它可以启用多个下游应用,如创建无缝循环或交互式图像动态。

尽管存在局限性,但《生成图像动力学》的方法在单张静态图片建模自然振荡动态方面提供了新的视角。论文中提出的图像空间运动先验以光谱体积表示,这是每个像素运动轨迹的频率表示,已被证明在预测扩散模型中是高效且有效的,并且是从真实世界视频的集合中学习得到的。光谱体积使用频率协调的潜在扩散模型预测,并通过基于图像的渲染模块用于动画化未来的视频帧。论文展示了其方法可以从单张图片产生逼真的动画,并显著优于之前的基线,它可以启用多个下游应用,如创建无缝循环或交互式图像动态。

展望未来,图像动力学的生成技术有望在内容创作、虚拟现实和游戏设计等领域产生深远影响。随着技术的进一步发展,我们可以期待更多创新的应用实例出现,例如在教育软件中模拟物理现象,或在社交媒体平台上创造引人入胜的动态内容。此外,随着计算能力的提升和算法的优化,这些技术可能会变得更加易于访问和使用,从而为更广泛的用户群体带来价值。

参考资料

1.https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf

2.https://generativedynamics.github.io./#demo

波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

0 阅读:0

独角也有噬元兽

简介:感谢大家的关注