深度生成模型在机器学习和神经科学领域都扮演着至关重要的角色。变分自编码器(VAE)等模型的核心是证据下界(ELBO),它为生成模型提供了一个可行的优化目标。尽管ELBO在解释生成模型方面非常有用,但其宽泛的定义往往无法为神经科学或机器学习中的具体架构提供明确的指导方向。
10 月 28 日,来自加州大学伯克利分校的团队发表神经网络新技术论文《A PRESCRIPTIVE THEORY FOR BRAIN-LIKE INFERENCE》,他们的研究目标是探讨在泊松假设下优化ELBO,生成一个能够通过膜电位动态执行贝叶斯后验推断的尖峰神经网络,即iP-VAE(迭代泊松变分自编码器)。这种模型不仅能够解释生物神经元的行为,还能在机器学习任务中展示出色的泛化能力和性能。
从理论推导到实验验证,再到实际应用,研究团队的研究不仅在理论上提供了对神经科学和机器学习的统一解释框架,还在实践中展示了iP-VAE模型的强大性能和广泛适用性。通过将高斯假设替换为更符合生物神经元行为的泊松分布,他们为开发神经形态计算设备提供了坚实的理论基础。
研究团队由Hadi Vafaii、Dekel Galor和Jacob L. Yates组成,他们隶属于加州大学伯克利分校的红木理论神经科学中心和视觉科学研究所。该团队在神经科学与机器学习的交汇处进行前沿研究,致力于开发具有生物神经元特性的生成模型。在本次的最新研究中,他们展示了如何通过优化ELBO来实现生物神经元的行为模拟,为类脑推理提供了一个全新的规范理论框架。
背景与相关工作
生成模型与ELBO是理解深度学习和神经科学中复杂推断问题的关键。生成模型通过引入潜在变量来表示数据分布,使得模型可以学习到数据的复杂结构。ELBO(证据下界)在变分推断中的作用尤为重要,它提供了一个可计算的目标函数,用于最小化近似后验分布与真实后验分布之间的差距。具体来说,ELBO通过最大化数据的边缘似然,间接地最小化了KL散度,从而使得生成模型可以有效地进行推断和学习。
在神经科学中,ELBO被称为“变分自由能”(VFE),其理论框架被称为“自由能原理”(FEP)。FEP的核心思想是将大脑的感知和行动视为对环境统计特性的推断过程,通过最小化变分自由能,大脑可以不断调整其内部模型以匹配外界输入。这一理论不仅统一了多个神经科学理论框架,如预测编码(Predictive Coding)、贝叶斯大脑(Bayesian Brain)和主动学习(Active Learning),还为理解大脑功能提供了一个强大的理论工具。然而ELBO的宽泛性在一定程度上限制了其在具体应用中的指导作用,尤其是在将其映射到神经回路时面临诸多挑战。
图1:摊销与迭代推理。(a) 标准VAE通过编码器神经网络学习近似后验,在整个数据集中“摊销”推理。推理组件以红色进行颜色编码,而生成组件则以蓝色进行颜色编码。x、 输入(例如图像);xˆ,重建;z、 潜在样本。(b) 迭代泊松VAE(iP-VAE)用无参数自适应迭代算法代替编码器网络,通过“综合分析”方法进行推理(Yuille&Kersten,2006)。从右上角开始,该过程首先从先验zt中采样尖峰,通过解码器fθ(zt)生成预测,并使用以下命令更新状态δut:=Jθ(zt)·(xt−fθ(zt)),其中Jθ(z)=∂fθ。更新后,从后验中提取新样本以生成重建并计算ELBO损失。
相关的研究工作主要集中在变分自编码器(VAE)和预测编码模型上。VAE通过引入变分推断,使得对复杂后验分布的近似变得可行,它利用一个编码器网络生成潜在变量的参数,从而进行高效的推断。然而,VAE在处理非平稳数据和复杂序列时面临困难,且容易出现后验坍塌等问题。预测编码模型则通过预测误差来调整神经活动,但其对高斯分布的假设在实际生物神经元中并不完全适用。因此iP-VAE模型通过引入泊松假设和迭代推断,提供了一种新的解决方案,使得其在神经科学和机器学习中的应用前景更加广阔。
迭代泊松VAE(iP-VAE)
模型推导
迭代泊松变分自编码器(iP-VAE)通过引入泊松分布假设,推导出在序列数据上的ELBO。我们考虑一个观测数据点的序列X = {xt},以及对应的潜在变量序列Z = {zt}。假设观测数据点之间存在马尔可夫依赖性,可以将联合分布pθ(X, Z)写作:$$pθ(X) = \int pθ(X, Z) dZ = pθ(x0) \prod_{t=1}^{T} pθ(xt|xt−1)$$ 其中,pθ(x0)是初始先验分布,pθ(xt|xt−1)是给定前一时刻数据点的条件似然分布。
为了得到ELBO,我们引入近似后验分布qϕ(Z|X),并利用以下关系:$$\log pθ(X) ≥ E_{qϕ(Z|X)}[\log \frac{pθ(X, Z)}{qϕ(Z|X)}] = E_{qϕ(Z|X)}[\log pθ(X|Z)] - D_{KL}[qϕ(Z|X) || pθ(Z)]$$ 其中,KL散度项DKL表示近似后验与真实后验之间的差距。通过最大化ELBO,可以间接最小化这一差距。
在泊松分布假设下,初始先验和时间相关先验均为泊松分布,模型的初始先验率和时间相关先验率分别为:$$p(z0) = \text{Pois}(z0; r0)$$ $$p(zt|xt−1) = \text{Pois}(zt; r_t(xt−1))$$ 近似后验则为:$$q(z0|x0) = \text{Pois}(z0; r0 ⊙ \delta_r(x0))$$ $$q(zt|xt, xt−1) = \text{Pois}(zt; r_t(xt−1) ⊙ \delta_r(xt))$$,我们序列数据的ELBO可以写如下:
通过上述公式,模型在每个时间步的条件对数似然和KL项也可以相应地因子化,形成最终的ELBO目标函数。利用这一推导,iP-VAE在每个时间步迭代更新后验分布,实现了对序列数据的贝叶斯推断。
动态更新与膜电位关系
iP-VAE的更新过程依赖于膜电位动态,通过对数率来进行更新。具体地,定义时间t的对数率为:$$u(t) := \log r(t)$$ 模型的更新则表示为:$$u_{t+1} = u_t + \delta u_t$$ 其中,$$r_t = \exp(u_t)$$ 作为当前时间t的先验率。由于对数率是正值,因此通过对数率进行动态更新不仅在数学上简便,还更符合生物神经元的特性。真实神经元的尖峰阈值通常被建模为指数函数,因此对数函数可以解释为突触的非线性,指数函数解释为尖峰的非线性。
具体的更新公式为:
其中,Jθ是解码器fθ关于z的雅可比矩阵。该形式与真实神经元的特性一致,因为每个神经元的更新不依赖于其他神经元的内部状态,反馈信号作为突触率的调制信号。
模型架构
iP-VAE模型的架构由编码器和解码器网络组成。在训练过程中,模型通过对数率进行迭代更新,实现了贝叶斯后验推断。编码器网络生成潜在变量的参数,解码器网络根据潜在变量重建输入数据。
模型的主要特点包括:
自适应迭代推断:iP-VAE通过自适应迭代算法进行推断,避免了传统VAE的后验坍塌问题。
稀疏表示:iP-VAE学习稀疏的潜在表示,避免了高斯分布假设导致的问题。
生物神经元模拟:iP-VAE通过膜电位动态进行更新,符合真实神经元的行为特性。
综上,iP-VAE通过优化ELBO,结合泊松分布假设,提供了一种新的生成模型架构,在神经科学和机器学习中均展现了出色的性能和广泛的应用前景。
实验验证
推断动态与稳定性测试
实验首先评估了iP-VAE在不同训练迭代次数下的推断稳定性与性能。通过在MNIST数据集上进行训练,研究团队发现,iP-VAE即使在仅仅4次迭代的情况下,也能够持续改进其推断效果。增加训练迭代次数后,iP-VAE的起始性能虽然有所下降,但最终收敛至更优的解。这表明iP-VAE学习到的动态依赖于训练序列长度,但在所有情况下都能超越训练集的限制。这种动态泛化能力是iP-VAE的一个重要特征,显示了其在不同推断任务中的稳定性和适应性。
图2:iP-VAE学会学习。(a) 在Ttrain=4的时间步长上训练iP-VAE,使其能够泛化并不断改进训练域之外的推理。无论iP-VAE架构如何,这都是正确的;左,雅各布|mlp;中间,雅各布|康夫。相比之下,混合摊销/迭代模型没有改善,要么保持平稳,要么发散(右)。(b) 在MNIST上训练的iP-VAE在测试时推广到Omniglot。该图中的所有模型都在MNIST上进行了训练,并在MNIST(a)或Omniglot(b)上进行了测试。
在测试阶段,即使超过了训练迭代次数,iP-VAE仍能保持稳定的推断性能,表现出强大的时间泛化能力。与之相比,混合模型(如sa-VAE和ia-VAE)在推断开始时表现出较好的初始猜测,但很快趋于平稳或出现发散。这些混合模型的均方误差(MSE)显著高于iP-VAE,且参数量大大超出iP-VAE。因此,iP-VAE在重建性能和参数效率方面均优于这些混合模型。
稀疏编码性能对比
为了评估iP-VAE与其他稀疏编码模型的重建性能,研究团队对自然图像补丁进行了重建实验。在表格1中,iP-VAE与P-VAE、LCA稀疏编码模型进行了对比。结果显示,iP-VAE在重建质量和稀疏表示方面与LCA模型相当,但使用的参数显著减少。相比之下,P-VAE和混合模型在稀疏性和性能上均表现不佳。
iP-VAE通过自适应的迭代推断算法,成功缩小了与LCA稀疏编码之间的性能差距。尽管P-VAE和混合模型在参数化上更为复杂,但iP-VAE通过高效的参数使用,实现了更优的重建性能和稀疏表示。这进一步证明了iP-VAE在稀疏编码任务中的优越性。
分布外样本的泛化能力
iP-VAE在分布外样本上的泛化能力也是实验验证的重要内容。研究团队首先在MNIST数据集上训练模型,然后在Omniglot等分布外数据集上进行测试。实验结果表明,iP-VAE能够有效地重建和分类分布外样本,其泛化性能显著优于其他模型。
图3:对训练集扰动的鲁棒性。我们旋转了MNIST数字,并评估了模型在重建受扰输入和分类精度方面的性能。在左边,我们显示了重建的样本(θ=15◦)坚硬(θ=90◦)跨不同模型的任务。在右侧,我们可视化了不同旋转下的平均重建损失和分类精度。无论在视觉上还是定量上,iP-VAE都能保持高性能,无论旋转如何,并且优于其他型号。
在旋转MNIST实验中,iP-VAE展示了其对训练集扰动的鲁棒性。模型在不同角度的旋转下(0到180度)保持了稳定的重建性能和分类准确率。相比之下,P-VAE和其他混合模型在旋转角度增加时表现出明显的性能下降。这表明iP-VAE在处理分布外样本时具有更强的适应性和稳定性。
图4:在测试时评估从基于MNIST数字训练的模型到新字符数据集(EMNIST和Omniglot)的泛化能力。左侧的两个面板分别显示了EMNIST和Omniglot上的重建。右中间的面板比较了EMNIST和Omniglot的重建性能。右侧面板显示了EMNIST潜在表示的平均分类性能。在这两个指标中,iP-VAE与其他型号相比都保持了高性能。
图5:iP-VAE学习最后一层权重的组合特征集,从而实现其泛化能力。左,iP-VAE采用jacob|mlp架构;右,P-VAE采用mlp|mlp架构。这两个模型都是在MNIST上训练的,但只有iP-VAE开发了Gabor样特征。相比之下,非迭代、摊销的P-VAE明显过拟合MNIST。特征按其权重分布峰度的升序排列,以突出iP-VAE特征空间的稀疏性。放大时效果最佳。
此外,iP-VAE在跨数据集的泛化测试中也表现出色。研究团队将MNIST训练的模型应用于EMNIST和Omniglot数据集,评估其重建和分类性能。iP-VAE不仅在视觉上重建质量更高,均方误差(MSE)更低,而且在分类准确率上也显著优于其他模型。这进一步验证了iP-VAE的强大泛化能力和组合编码特性。
特征可视化
为了更直观地展示iP-VAE学习到的特征权重,研究团队进行了特征可视化。iP-VAE学习到的特征具有明显的组合性质,与Gabor滤波器相似,而P-VAE模型学习到的特征则更倾向于具体的数字或笔画。这种差异表明,iP-VAE在推断过程中能够提取更通用和抽象的特征,具备更强的泛化能力。
图6:评估从基于MNIST数字训练的模型到裁剪的灰度自然图像(ImageNet32)的测试时间泛化。右侧面板显示了整个验证数据集的推理迭代的平均重建性能。左侧面板显示了与模型重建相比的选定地面实况图像。ai VAE变体无法适应新的域;然而sa-VAE可以捕获更多细节。iP-VAE优于这些替代模型,其重建保持了地面真实图像的语义信息。
在MNIST数据集上训练的iP-VAE模型,其学习到的512个特征权重在视觉上呈现出清晰的结构,与LCA稀疏编码模型非常相似。这些特征在跨域泛化任务中展示了强大的适应性,能够有效处理裁剪后的灰度自然图像(ImageNet32)。相比之下,P-VAE模型在处理这些新数据时表现出明显的过拟合现象,无法提取到通用的组合特征。
总结来看,iP-VAE通过自适应的迭代推断算法和稀疏表示,成功实现了对真实神经元行为的模拟。在不同推断任务和数据集上的优异表现证明了其在生成模型领域的广泛适用性和前景。未来的研究可以进一步探索分层模型设计和非平稳序列的训练与评估,充分发挥iP-VAE的潜力。
讨论与结论
iP-VAE的优势
iP-VAE模型通过在泊松假设下优化ELBO,展现出了显著的适应性、鲁棒性和计算性能优势。首先,iP-VAE通过自适应迭代推断,在处理各种数据分布时表现出强大的泛化能力。在实验中,无论是训练数据集内还是分布外样本,iP-VAE都能稳定地重建和分类,从而验证了其适应性的强大。
其次,iP-VAE在面对训练数据集的扰动时,展示了优异的鲁棒性。尤其是在旋转MNIST实验中,无论旋转角度如何变化,iP-VAE都能保持高水平的重建和分类性能,这一点显著优于其他混合模型和非迭代模型。这样的鲁棒性使得iP-VAE在实际应用中具有更高的可靠性,能够适应多种复杂环境和数据变化。
此外,iP-VAE在计算性能上的表现也十分突出。通过高效的参数使用和自适应的迭代推断算法,iP-VAE在相对较少的参数下实现了优于传统VAE和其他稀疏编码模型的性能。相比之下,其他模型在参数量上显著高于iP-VAE,却未能达到同样的效果。这不仅提高了计算效率,还降低了模型的复杂性和资源消耗,使其在实际应用中更具优势。
理论与实际应用前景
iP-VAE的理论基础在于通过泊松分布假设下的ELBO优化,实现了对神经元膜电位动态的贝叶斯后验更新。这一理论框架不仅统一了神经科学和机器学习中的多个理论,还为开发神经形态计算设备提供了坚实的基础。iP-VAE通过模拟生物神经元的行为,展示了在生成模型中的广泛应用前景。
随着神经形态硬件的发展,iP-VAE在实际应用中的潜力也得到了显著提升。神经形态硬件利用生物神经元的工作原理,通过尖峰神经网络实现高效的计算和能量利用。而iP-VAE作为一种能够自适应更新和稀疏表示的模型,与这种硬件架构高度契合。因此,iP-VAE不仅能在传统计算设备上展示出色的性能,还具备在神经形态硬件上实现的潜力,为未来的智能计算提供了新路径。
未来工作展望
虽然iP-VAE在许多方面表现出了优越性,但仍有一些值得探索的方向,可以进一步提升其性能和应用范围。首先,分层模型设计是一个自然的扩展方向。多层次的模型结构能够更好地模拟大脑的层次化处理方式,提高推断和生成的精度与效率。已有研究表明,分层VAE与大脑的层次结构更为一致,因此未来可以在这一方向上展开深入研究。
其次,非平稳序列的训练与评估也是未来工作的一个重要领域。现实世界的数据往往是非平稳的,例如视频序列、时间序列等。iP-VAE在理论推导中已考虑了处理动态序列的可能性,因此在实际应用中,可以进一步探索其在非平稳数据上的表现,开发更复杂的前向预测模型,使其适应不断变化的输入数据。
总之,iP-VAE作为一种类脑推理的生成模型,凭借其适应性、鲁棒性和计算性能,在理论研究和实际应用中都展示了巨大的潜力。随着未来研究的深入,iP-VAE有望在神经形态计算、智能感知和自主系统等领域发挥更大的作用,为人工智能的发展带来新的机遇和挑战。(END)
参考资料:https://arxiv.org/pdf/2410.19315
波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。