本文约4000字,建议阅读5分钟
本论文通过引入基于最优传输和仿真方法的新方法,对深度概率模型的发展作出了贡献。
深度概率模型在高维、多模态数据合成和密度估计任务中已成为最新的技术前沿。通过将抽象的概率公式与神经网络的表达能力和可扩展性相结合,深度概率模型已成为机器学习工具箱中的基本组成部分。然而,这些模型仍然存在一些局限性。例如,深度概率模型通常局限于基于梯度的训练,因此难以结合非可微操作;它们的训练和采样成本较高;并且深度概率模型往往没有利用先验的几何和特定问题的结构知识。
本论文由四部分研究工作组成,通过基于最优传输的仿真方法推动深度概率模型领域的发展。首先,使用Sinkhorn算法的正则化最优传输,我们提供了一个理论上有依据且可微的粒子滤波中重新采样的近似方法。这使得人们能够通过端到端可微粒子滤波对状态空间模型(一类序列概率模型)进行基于梯度的训练。接下来,我们探讨了Sinkhorn算法的初始化策略以解决速度问题。我们展示了精心的初始化可以显著加速Sinkhorn算法。这在可微排序、变分自编码器潜在空间中的聚类以及粒子滤波中都有应用。
剩下的两项工作通过薛定谔桥对基于扩散的生成模型领域作出了贡献。首先,我们将扩散模型与薛定谔桥联系起来,称之为扩散薛定谔桥。这一方法论实现了加速采样、数据到数据的仿真以及一种计算高维连续状态空间问题的正则化最优传输的新方法。最后,我们将扩散薛定谔桥扩展到黎曼流形设置。这使得人们能够结合先验的几何知识,从而实现对黎曼流形值数据的扩散模型的更高效的训练和推理。这在气候和地球科学中有应用。
观察到的现象通常具有高维度、分布上多模态,并且来自于尚未完全理解的随机复杂系统。科学家的职责是更好地理解我们周围物理和社会世界中的这些观察现象。对统计机器学习研究人员特别感兴趣的是开发数据驱动的模型来模拟和预测感兴趣的随机量及其相互作用。此类数据驱动的机器学习方法通常包括利用大型数据集和富有表现力的模型参数化来弥合领域知识与经验证据之间的差距。
随着技术的进步,我们现在能够捕获、存储和访问大量且不断增加的数据。结合现代计算资源,广大数据可用于从业者训练大型且灵活的神经网络参数化模型。富有表现力的神经网络与理论上有依据的统计方法之间的协同作用,提供了一种原则性的、可扩展的方式来准确表示感兴趣的随机量之间复杂关系。深度概率模型正位于此交汇点,并已成功应用于多个领域,包括:视觉和语言的经典机器学习任务;时间序列、预测或密度估计的统计推断问题;以及自然科学应用。尽管进展迅速,但仍有许多未解决的挑战。深度概率模型在训练和部署方面都资源昂贵。如何高效地训练和模拟概率模型尚不明确,尤其是对于迭代扩散模型。也不总是清楚如何将现有的特定问题知识或结构融入深度概率模型中。从直观和实验上来看,结合现有知识可以开发出更有效的损失目标和更高效的模型,从而减少学习高性能模型所需的数据量和参数量。最终,结合领域知识可以减少神经网络需要通过从数据中学习来弥合的差距。在将涉及非可微操作(如排序、聚类或重采样)的理论上有依据的统计方法与通常限于基于梯度训练的深度网络的表现力相结合方面,也存在许多挑战。
本论文通过引入基于最优传输和仿真方法的新方法,对深度概率模型的发展作出了贡献。
贡献
本文包括多项研究成果,可大致分为两个部分。论文的前半部分使用离散的熵正则化最优传输(OT)推导出新颖且改进的深度概率模型训练方案。论文的后半部分探索了熵正则化最优传输在连续状态空间和扩散模型中的新方法,通过扩散Schrödinger桥和黎曼扩展来实现。
仿真方法。仿真是一个广泛使用的术语,通常与蒙特卡罗(Monte Carlo)互换使用。在本研究中,仿真是指对随机过程的评估,包括:蒙特卡罗积分、马尔可夫链蒙特卡罗、概率模型以及简单的随机变量实现。本文中仿真将用于两个上下文。首先,仿真在蒙特卡罗积分的意义上使用,指的是近似那些通常表现为不可解积分的损失。其次,运行概率模型的生成过程也称为仿真。在某些方法中,从概率模型进行仿真直接用于近似训练损失,例如GANs。然而,其他可扩展方法如扩散模型在训练和部署期间有不同的仿真过程。
可微分粒子滤波。本文的第一篇文章【19】详细介绍于第三章,考虑利用Sinkhorn算法实现端到端可微分粒子滤波。这允许训练神经网络参数化的状态空间模型,从而以原则性的方式利用问题的序列结构以及神经网络的表达能力。粒子滤波是一类蒙特卡罗方法,用于在状态空间模型中执行状态推断和似然估计【30】。给定按时间t ∈ {1, . . . , T}索引的顺序未观察到的潜在状态(Xt)t和观测值(Yt)t,状态空间模型是一个顺序概率模型,其特征在于潜在状态的转移模型,表示为密度fθ(xt|xt−1),以及观测模型gθ(yt|xt)。这在包括机器人技术、计量经济学和流行病学在内的科学领域中有应用【18, 29, 31, 33】。粒子滤波提供了观测值的渐近无偏对数似然估计log p(y1:T),可用于以原则性的方式学习转移和观测模型的参数。
粒子滤波包括三个主要操作的顺序应用:
1. 提案。为每个时间t的隐藏状态提出粒子,输出提案粒子分布。
2. 加权。根据提案密度、状态空间模型转移密度和观测密度为每个提议的粒子分配重要性权重。此步骤生成加权的滤波粒子分布。
3. 重采样。根据重要性权重重采样提议的粒子以防止权重退化。此步骤生成未加权的滤波粒子分布。
典型的重采样过程是不可微的,这限制了通过基于梯度的优化训练深度神经网络参数化的状态空间模型的粒子滤波的使用。可以将粒子滤波中的重采样操作重新表述为通过经验提案和加权滤波粒子分布之间的耦合进行采样【68】。最小化此耦合的方差等同于最优传输。跨这种耦合进行采样保留了标准重采样的理论保证,但也‘减少’了不连续性,从而增加了似然函数的‘平滑度’。使用Sinkhorn算法计算此传输耦合是可微的,然后取耦合矩阵行的平均值,也称为重心投影或集成变换【68】,而不是采样耦合,引入了轻微的、可量化的偏差,但实现了可微重采样,因此端到端可微分粒子滤波。
初始化Sinkhorn势。尽管在神经网络中嵌入Sinkhorn层取得了成功,但Sinkhorn算法可能需要多次迭代才能收敛,此外,Sinkhorn算法的每次迭代的复杂度为O(n^2),其中n是每个离散边缘测度中的原子数量。因此,Sinkhorn算法的收敛可能耗时。当像可微粒子滤波那样,在概率模型的前向传递中嵌入多个Sinkhorn层时,这一问题更为严重。Sinkhorn算法的收敛速度取决于两个因素。首先,取决于Gibbs核e^(-ci,j/ε)的一些条件常数,对于地面成本(ci,j)i,j;其次,取决于初始Sinkhorn势与最优势的接近程度,参见【66,第4.1定理】。已有许多加速Sinkhorn算法的尝试,包括使用Anderson加速【17】或动量方法【56, 90】。在本文的第二篇文章【91】中,第四章,我们研究了通过初始化来加速Sinkhorn算法。
如果初始化的Sinkhorn势处于最优点,则不需要进一步迭代。非正式地说,如果传输问题OT1 = (α, β, c, ϵ)与类似问题OT2 = (α, ˜ β, c, ˜ ϵ˜)“接近”,那么最优势也会接近【61】。第四章工作的前提是构建一系列便于解决或近似的OT问题,但它们在边缘测度或正则化参数方面收敛到原始的OT问题。然后,我们使用近似问题的更便宜的解决方案来初始化原始、更困难的问题。针对涉及神经网络中Sinkhorn层的各种常见问题,提出了多种初始化器,特别是:用于排序【21】的初始化器,聚类潜在嵌入(如自编码器中)使用的高斯和高斯混合初始化器【13, 19, 41】,以及适用于离散测度点数量n较大的情况的子样本初始化器。这些初始化器在各种任务中显示了显著的加速效果。
扩散Schrödinger桥。在本文的第三篇文章【7】、第五章中,介绍了一种扩散模型的新型泛化,并构建了最优传输和扩散模型之间的联系。该工作的核心思想是,每个逆向扩散学习一个扩散过程,以最小化到前向过程的Kullback–Leibler散度;迭代这个时间反转对应于迭代比例拟合程序(IPF)【38】,这是Sinkhorn算法【20, 81】在连续状态空间中的推广。IPF过程收敛到Schrödinger桥问题的解【74】,这也为高维、正则化的OT提供了近似解。与传统扩散模型训练方案不同,迭代时间反转方法不需要前向加噪过程收敛到简单的先验分布,而是在交替的IPF步骤中通过学习新的前向过程来强制收敛。这意味着相应的逆过程可以比常规扩散模型方法显著更短,从而加快仿真速度。鉴于不再需要前向过程收敛,逆过程不再局限于高斯先验,而是可以从另一个相关数据集初始化逆过程——导致数据到数据的仿真。例如,这可以用于图像到图像的恢复任务或更一般的其他条件生成建模任务。事实上,本文的第三篇文章是首批(如果不是第一批)介绍图像到图像扩散模型的工作之一;首批扩散模型加速技术之一;以及首个具有非线性前向过程的扩散模型。尽管性能已被其他方法超越,但它仍然是其他自那时以来使用的方法的补充。
黎曼扩散Schrödinger桥。许多现实世界的数据存在于黎曼流形上。这包括地球和气候数据【53, 64】;蛋白质或分子建模【76】和机器人技术【34, 75】。通过结合这种几何先验知识,有望获得更高效的生成概率模型,通常需要更少的参数进行训练,并更容易采样。
本文的下一篇文章【93】详细介绍于第六章,扩展了黎曼设置下的扩散Schrödinger桥方法。黎曼流形上的扩散模型训练和采样与传统欧几里德扩散模型不同【23】。而不是像典型的欧几里德扩散模型那样进行线性扩散,需要在流形上进行布朗运动及其扩展。这种流形约束的扩散过程通常没有闭式解,需要进行仿真。可以使用测地随机游走在流形上采样扩散路径,这是Euler–Maruyama方法的黎曼对应。紧致流形上的布朗运动收敛到均匀分布,然后用于初始化逆向生成过程。在【23, 93】和第六章中,我们详细介绍了如何为黎曼流形布朗运动执行时间反转。
在【93】和第六章中引入了黎曼流形上的迭代时间反转和黎曼扩散Schrödinger桥。此过程包括在流形上进行引导扩散的时间反转,这允许数据到数据的生成,并使从业者能够将生成模型条件设定为接近已知数据集。此外,黎曼扩散Schrödinger桥使得黎曼扩散模型的加速成为可能,其中许多用于欧几里德空间的加速方法不再适用。