混合VAE模型的流形学习，理论推导黎曼梯度|算法|高维|算子|维数|vae模型

发布日期：2025-01-22 14:42 点击次数：126

Manifold Learning by Mixture Models of VAEs for Inverse Problems反问题 VAE 混合模型的流形学习相对于两个不同图集的梯度下降步骤可能指向完全不同的方向摘要表示高维数据流形的生成模型在实践中已被证明是计算上有效的。然而，这要求数据流形允许全局参数化。为了表示任意拓扑的流形，我们提出学习一种变分自编码器（VAE）混合模型。在这里，每对编码器-解码器表示流形的一个图。我们提出了一种用于最大似然估计模型权重的损失函数，并选择了一种为我们提供图及其逆的解析表达式的架构。一旦流形被学习，我们通过最小化限制在学习到的流形上的数据保真项来解决逆问题。为了解决由此产生的最小化问题，我们提出了一种在学习到的流形上进行的黎曼梯度下降算法。我们在低维玩具示例以及对某些图像流形进行去模糊和电阻抗断层成像中展示了我们方法的性能。1 引言流形学习处理高维数据往往在计算上代价高昂且数值上不稳定。因此，在许多应用中，找到高维数据集的低维表示非常重要。经典方法，如主成分分析（PCA）[75]，假设数据包含在低维子空间中。然而，对于复杂的数据集，这一假设显得过于严格，尤其是在处理图像数据集时。因此，近期的方法依赖于所谓的流形假设[16]，该假设认为即使是复杂的高维数据集也包含在一个低维流形中。基于这一假设，近年来许多成功的方法基于生成模型，这些模型能够通过生成器来表示高维数据，其中。这些方法包括生成对抗网络（GANs）[40]，变分自编码器（VAEs）[58]，注入流[63]，以及基于得分的扩散模型[85, 50]。关于早期流形学习方法的综述，读者可以参考[68, 55]及其中的参考文献。使用多图来学习流形在假设 D 是单射的前提下，生成点的集合形成一个近似训练集的流形。然而，这要求数据流形允许全局参数化，特别是，它不能是断开的或包含孔洞的。为了对断开流形建模，[76]的作者提出用高斯混合模型来建模VAE的潜在空间。同样地，[31, 71, 78]的作者提出在黎曼流形上定义潜在分布以表示一般拓扑结构。在[70]中，流形被嵌入到更高维空间中，这与惠特尼嵌入定理的思想一致。然而，这些方法的缺点是流形的拓扑结构必须先验已知，而这在实际中通常不成立。在这里，我们专注于通过多个图来表示数据流形。图通过定义从流形到欧几里得空间的映射来提供流形的一个开放子集的参数化。然后，流形由所有这些图的集合表示，称为图集。为了找到这些图，[29, 38, 77, 83]的作者提出使用聚类算法。默认情况下，这些方法不提供结果图的显式公式。作为补救措施，[77]的作者使用线性嵌入。[83]的作者提出为每个图再次学习一个生成模型。然而，这些方法通常需要大量的图，并且局限于相对较低的数据维度。在[61, 62, 81]中，进一步阐述了通过生成模型表示图的思想。在这里，作者提出同时训练几个（非变分）自编码器和一个分类网络，以决定每个点属于哪个图。与基于聚类的算法相比，计算工作量在大数据维度下表现良好。另一方面，相应论文中的数值示例显示，该方法在近似小型玩具示例（如圆环）时已经遇到困难。在本文中，我们提出通过变分自编码器（VAEs）的混合模型来近似数据流形。利用贝叶斯定理和似然项的ELBO近似，我们推导出一个用于模型权重最大似然估计的损失函数。用于建模断开数据集的生成模型的混合模型已经在[13, 51, 65, 86, 88]中考虑过。然而，它们的训练方式不同，并且据我们所知，没有一个用于流形学习。流形上的逆问题在应用数学和图像处理中的许多问题可以表述为逆问题。在这里，我们考虑一个观察 y，它是由...生成的。设是一个病态或病态条件的、可能是非线性的前向算子，且代表加性噪声。由于前向算子的病态性以及问题的高维性，直接从观测 y 重建输入 x 通常是不可能的。为此，需要引入先验知识作为补救。这通常通过使用正则化理论来实现，即通过最小化数据拟合项 F(x) 和正则化项 R(x) 之和，其中 F 描述了x 与 y 的拟合程度，R则结合了先验知识。随着深度学习的成功，基于数据驱动的正则化方法变得流行起来[6, 9, 41, 49, 67]。在本文中，我们考虑一个将重建 x 限制在一个学习到的数据流形M上的正则化方法。更准确地说，我们考虑如下优化问题：其中，是数据保真项。这对应于正则化项 R(x)，其在 x ∈ M 时为零，其他情况为无穷大。当流形允许通过单一生成器 D 给出全局参数化时，文献[4, 23, 33, 39]的作者提出将问题重新表述为，其中。由于这是一个无约束问题，可以通过基于梯度的方法来解决。然而，由于我们考虑的是由多个图表示的流形，这种重新表述无法应用。为此，我们提出使用黎曼梯度下降方案。特别地，我们使用流形的解码器和编码器推导黎曼梯度，并提出了两种适合的回缩操作，以便在梯度方向上应用下降步。为了强调使用多个生成器的优势，我们在数值示例中展示了我们方法的性能。我们首先考虑了一些二维和三维的玩具示例。最后，我们将我们的方法应用于去模糊和电阻抗断层成像（EIT），这是一种非线性逆问题，涉及从其解的边界值的已知信息中重建二阶椭圆型偏微分方程的主系数[27]。数值示例的代码可在线获取。概要。本文的组织结构如下。第二节，我们重温变分自编码器（VAEs）并固定相应的符号。接着，在第三节中，我们介绍了用于学习任意维度和拓扑嵌入流形的混合模型VAEs。在这里，我们特别关注损失函数和架构的推导，这使我们能够访问图及其逆图。为了最小化在学习流形上定义的函数，我们在第四节提出了一种黎曼梯度下降方案。第五节，我们提供了一维和二维流形的数值玩具示例。在第六节中，我们讨论了去模糊和电阻抗断层成像的应用。第七节中，我们得出结论。2 用于流形学习的变分自编码器在本文中，我们假设给定了数据点，其中 n 为一个较大的维度。为了减少计算量并正则化逆问题，我们假设这些数据点位于一个低维流形上。我们的目标是通过变分自编码器（VAE）[58, 59] 从数据点学习该底层流形。最后，通过最小化损失函数来训练 VAE，该损失函数总结了所有数据点的负 ELBO 值，即学习了潜在空间。为了提高 VAE 的表达能力，我们使用通过标准化流学习到的潜在空间。这是在[79]中首次提出的，并在[30]中进一步使用。在这里，我们采用[43, 44]中的特定损失函数来训练产生的模型。更准确地说，我们选择潜在分布其中，是解码器、编码器和归一化流 T 的参数。在文献中，存在几种基于耦合块[32, 57]、残差网络[15, 24, 48]、常微分方程表示[25, 42, 74]和自回归流[52]的可逆神经网络架构。在我们的数值实验中，我们使用了[8]中的基于耦合的架构。使用变分自编码器（VAEs）进行流形学习为了获得数据点的低维表示，一些论文提出通过来近似数据流形，例如参见[4, 23, 33, 39]。然而，这只有在数据流形允许全局参数化时才有可能，即它可以通过一个生成函数进行近似。这个假设在实际中常常被违反。作为一个简单的例子，考虑嵌入在中的一维流形，它由两个圆圈组成，见图1a。这个流形是不连通的，并且包含“洞”。因此，流形和潜在空间的拓扑结构不一致，导致流形无法通过VAE进行近似。实际上，这可以通过数值验证。当我们学习一个VAE来近似来自该流形的样本时，我们观察到两个（生成的）圆圈并没有闭合，且两个部分是连通的，见图1b。作为补救措施，在下一节中，我们提出使用多个生成器来解决这个问题，见图1c。3 通过 VAE 混合进行图表学习为了用任意（未知）拓扑来近似（嵌入）流形，我们建议学习流形的几个局部参数化而不是全局参数化。为此，我们建议使用 VAE 的混合模型。3.1 VAE 混合物的训练损失函数。设为带噪声的训练样本。为了训练变分自编码器（VAEs）的混合模型，我们再次最小化负对数似然函数的近似值。为此，我们利用全概率公式并得到为了训练变分自编码器（VAEs）混合模型的参数，最终采用基于随机梯度的优化器（如Adam[56]）来优化这个损失函数。备注 1（Lipschitz 正则化）。为了稳定训练过程，在最初的几个训练周期中，我们添加了一个正则化项，该项惩罚解码器和潜在空间中归一化流的Lipschitz常数。更具体地说，对于某个小的，我们添加了正则化项。用于表示嵌入流形图集的VAE混合模型的整体训练过程总结如下（算法1）。3.2Architectures4 学习流形的优化正如引言中所激励的那样，我们对以下形式的优化问题感兴趣使用梯度下降方案。然而，当使用多个图表时，这种梯度下降方案很大程度上依赖于当前图表。事实上，下面的示例表明，如果我们使用不同的图表，梯度方向可能会发生显着变化。因此，相对于两个不同图集的梯度下降步骤可能指向完全不同的方向，与步长无关。示例 3. 考虑二维流形 R2 和生成器给出的两个学习图表因此，我们的目标是使用与流形参数化无关的梯度形式。在这里，我们使用了相对于黎曼度量的黎曼梯度的概念，该度量是从嵌入流形 M的欧几里得空间继承而来的。为此，我们首先回顾一些关于嵌入流形上的黎曼梯度的基本事实，这些事实可以在文献[1]中找到。然后，我们考虑适当的投影以便在负黎曼梯度的方向上执行一个下降步骤。最后，我们利用这些概念来推导一个基于混合VAEs给定流形的梯度下降过程。嵌入式流形上的黎曼梯度Retractions为了将这个梯度方案应用于由学习到的映射给出的学习流形，我们考虑两种类型的投影。我们介绍它们，并在以下引理中证明它们确实是投影。第一个引理推广了从 [2, 引理4, 命题5] 中的想法，即沿着中的切向量移动，并重新投影到流形上的概念。然而，[2] 中的结果基于正交投影，这很难甚至不可能计算。因此，我们用一些更一般的投影替换它。在我们的应用中，将如在备注2 中选择，即我们设置。第二个投影使用了改变到局部坐标的思想，通过使用局部坐标沿着梯度方向移动，然后回到流形表示。需要注意的是，类似的构造在 [1, Section 4.1.3] 中也被考虑过。然而，由于我们没有找到引理的明确证明，为了完整起见，我们在下面给出了证明。学习流形上的梯度下降。通过引理 6 和 7，我们得到映射5 数值例子接下来，我们测试所提出方法的数值性能。在本节中，我们从嵌入二维或三维欧几里得空间中的一些一维和二维流形开始。我们使用第 3.2 节中的架构，其中 L = 1。我们在图4中可视化了学习到的图集。此外，图5中显示了由学习到的混合VAE生成的额外样本。我们观察到我们的模型涵盖了所有考虑的流形，并提供了对不同图集的合理近似。最后，我们对以下函数应用了算法2中的梯度下降方法：我们使用引理6中的投影，并采用步长为0.01。结果轨迹可在图6中看到。我们观察到，所有轨迹的行为都符合预期，并接近目标函数的最近最小值，即使这个最小值不在初始点所在的图集中。备注8（流形的维数）。对于我们所有的数值实验，我们假设数据流形的维数 d 是已知的。这个假设在实际应用中可能会违反。然而，文献中存在几种方法来从数据中估计流形的维数，例如 [14, 22, 35, 64]。将这些方法与我们的混合VAE相结合不在本文的范围内，留待未来研究。6 反问题的 VAE 混合在本节中，我们将描述如何使用 VAE 的混合来解决反问题。我们考虑以下形式的反问题其中，是一个可能是非线性的映射，将映射到，用于建模一个测量（前向）算子，是待恢复的量，是带噪声的数据，表示一些噪声。特别地，我们分析了一个线性和一个非线性的逆问题：模糊问题和电阻抗断层成像（EIT）中出现的椭圆PDE的参数识别问题。在许多逆问题中，未知量 x 可以被建模为中的一个低维流形 M 的元素，这个流形可以被如第3节所述的VAE混合模型表示。因此，通过优化下述函数，可以找到（11）的解：通过使用第4节提出的迭代方案。我们想强调的是，我们实验的主要目标不是获得最先进的结果。相反，我们想要突出使用多个生成器通过VAE混合模型的优势。我们所有的实验都设计成数据的流形特性直接清晰可见。将其应用于实际数据并与其他方法结合以获得竞争性结果并不在本文的范围之内，这留待未来的研究。6.1 去模糊首先，我们考虑图像去模糊的逆问题。在这里，(11)中的前向算子是线性的，通过与一个标准差为15的 30 × 30 高斯模糊核进行卷积给出。为了获得与输入 x 相同大小的输出 y，我们在卷积过程中使用了强度为1/2的常数填充。此外，图像受到标准差为0.1的白色高斯噪声 η 的干扰。给定通过这个退化过程生成的观测值 y，我们的目标是重构未知的真实图像 x。数据集和流形逼近。在这里，我们考虑了尺寸为 128 × 128 的图像数据集，显示了一个带有灰色背景的亮色条形图案，该图案居中且被旋转。前景和背景的强度以及条的大小都是固定的。数据集中的一些示例图像如图7a所示。该数据集形成一个由条的旋转参数化的一维流形。因此，它同胚于，并且由于包含一个空洞，不具有全局参数化。我们通过两个VAE的混合模型近似数据流形，并将结果与单个VAE的近似进行比较，其中潜在维度设置为 d = 1 。学习到的图集可视化如图7b和7c所示。我们观察到，使用单个VAE学习的图集无法覆盖条的所有可能旋转角度，而两个VAE的混合模型可以生成任何旋转。此外，我们可以看到混合VAE的两个图集重叠。重构。为了重构出真实图像，我们使用了我们的梯度下降方案对函数 (12) 进行了500次迭代，如算法2所述。由于函数 F 定义在整个上，我们相应地计算了 Riemannian 梯度，根据备注4。更具体地说，对于，我们有，其中是 F 的欧几里得梯度，是在处评估的第 k 个解码器的雅可比矩阵。这里，欧几里得梯度 \(\nabla F(x)\) 和雅可比矩阵 J 通过算法微分进行计算。此外，我们使用来自 (9) 的投影。作为梯度下降方案的初始化，我们使用混合 VAE 中的随机样本。结果可在图7d中看到。我们观察到，使用两个生成器的重建总是非常好地恢复了真实图像。另一方面，使用一个生成器的重建通常是不现实的，并且与真实情况不符。这些不现实的图像出现在 VAE 的图集不覆盖数据流形的那些点上。6.2 电阻抗成像最后，我们考虑高度非线性和不适定的电阻抗成像（EIT）[27]的逆问题，这在数学文献中也被称为卡尔德隆问题[12, 37, 72]。EIT是一种无创、无辐射的方法，通过放置在身体表面的电极来测量组织的电导率。更准确地说，将电流模式施加到其中一些电极上，并在其余电极上测量产生的电压差。尽管无害，但这种模式在实践中的使用非常有限，因为标准重建方法提供的图像具有非常低的空间分辨率。这是逆问题严重不适定性的直接后果[5, 69]。解决这个逆问题的经典方法包括变分类型方法[28]、拉格朗日方法[26]、因子化方法[21, 60]、D-bar方法[84]、封闭方法[54]和单调方法[87]。与许多其他逆问题一样，深度学习方法对 EIT 产生了重大影响。例如，[36] 的作者提出了一种端到端的神经网络，学习正向映射 G 及其逆映射。此外，深度学习方法可以与传统方法相结合，例如，通过后处理方法[46, 45]或通过变分学习算法[82]。数据集和流形逼近。我们考虑由尺寸为 128×128 的图像组成的流形，显示了两个亮度不重叠的球在灰色背景上，代表具有特殊包含物的电导率。球的半径和位置变化，而前景和背景的强度是固定的。数据集的一些示例样本如图9a所示。数据集中的图像具有六个自由度，即中两个球的位置和半径。因此，这些图像形成了一个六维流形。由于球不允许重叠，该流形具有非平凡的拓扑性，并且不具有全局参数化。在 [3] 中考虑了稍微更一般的流形，其中证明了与流形相关的逆边界值问题的利普希茨稳定性。文献中还考虑了其他类型的包含物（位置未知），特别是多边形和多面体包含物[18, 17, 11]。小包含物的情况在 [7] 中讨论。我们通过两个VAE的混合模型近似数据流形，并将结果与单个VAE的近似进行比较。潜在维度设置为流形维度，即d = 6。一些学习到的图集样本如图9b和9c所示。与前面的例子一样，这两个模型产生的大多数样本都是真实的。正向算子及其导数。从数学角度来看，EIT 考虑以下具有诺依曼边界条件的偏微分方程实施细节。在我们的实验中，域 Ω 是由单位正方形 [0, 1]2 给出的。为了解决 PDEs (13) 和 (16)，我们使用了来自 DOLFIN 库 [66] 的有限元求解器。我们使用的网格在 Ω 的中间较粗，在边界附近较细。为了模拟网格的逼近误差，并避免逆问题，我们使用一个细网格生成观测数据，而用一个粗网格进行重构。我们使用了 N = 15 个边界函数，选择方式如下。我们将单位正方形 [0, 1]2 的四条边分成 4 段，并用 b1, . . . , b16 表示在其中一段上为 1，其他地方为 0 的函数。然后，我们将边界函数定义为 gn = ∑16i=1 an,ibi，其中矩阵 A = (an,i)n=1,...,15,i=1,...,16 是没有第一行的 16 × 16 Haar 矩阵。更确切地说，A 的行由矩阵的行给出，这些矩阵是对于 k = 1, . . . , 4 给出的 2−k/2(Id24−k ⊗ (1, −1) ⊗ eT2k−1 ) 的行，其中 ⊗ 是 Kronecker 乘积，ej ∈ Rj 是所有元素为 1 的向量。结果。我们通过最小化（14）中的泛函 F，以γ ∈ M 为约束条件，从观测数据中重建真实图像。为此，我们应用算法 2 中的梯度下降方案进行 100 步。由于正向算子及其导数的评估包括对 PDE 的数值解，计算成本非常高。因此，我们旨在尽可能少地使用算法 2 的迭代。为此，我们应用算法 3 中的自适应步长方案。作为缩影，我们使用（9）中的 ˜Rk,x。梯度下降方案的初始化 γ0 是从 VAE 混合分布中随机抽样得到的。由于 F 在整个 R128×128+ 上定义，我们再次使用备注 4 来评估 Riemannian 梯度。更确切地说，对于 γ ∈ Uk，我们有 ∇MF(γ) = J(JTJ)−1JT∇F(γ)，其中 ∇F(γ) 是 F 的欧几里得梯度，J = ∇Dk(Ek(γ))。这里，我们通过算法微分计算 ∇F(γ) 和 J。对于 20 个不同的真实图像，重建结果如图 9d 所示。我们观察到，在大多数情况下，两种模型都能够捕捉到真实结构，但有时会失败。然而，与单一 VAE 相比，混合两个 VAE 的重建更频繁且更准确地恢复了正确的结构。为了更详细地量化差异，我们重新运行了实验，使用了 200 个不同的真实图像，并在下表中对 200 个重建结果的 PSNR 进行了平均。因此，使用两台生成器的重建明显优于使用一台生成器的重建。7 结论在本文中，我们介绍了用于学习任意拓扑流形的 VAE 混合模型。VAE 的相应解码器和编码器提供了对结果图表的分析访问，并通过近似负对数似然函数的损失函数进行学习。为了最小化在学习流形上定义的函数 F，我们提出了一种黎曼梯度下降方案。在逆问题的情况下，F 被选择为数据拟合项。最后，我们通过数值示例展示了使用多个生成器的优势。这项工作可以在几个方向上进行扩展。首先，梯度下降方法只在局部收敛，并不一定快速。因此，将在第 7 节中对函数 F 的最小化扩展到高阶方法或结合动量参数将是有趣的。此外，精心选择初始化可能会改善收敛行为。此外，我们的重建方法可以扩展到贝叶斯逆问题。由于 VAE 混合模型提供了概率分布和（近似）密度，因此可以使用 Langevin 动力学等随机采样方法来量化重建中的不确定性。事实上，黎曼流形上的 Langevin 动力学仍然是一个活跃的研究领域。最后，最近的论文表明，扩散模型提供了数据流形的隐式表示。有趣的是，探索在这样的流形上的优化模型，以将其应用于逆问题。

上一篇：没有了

下一篇：没有了