多智能体系统中的量子电路优化——从理论到实践

随着智能体数量的增加，系统的复杂性呈指数增长。这种复杂性使得传统的强化学习方法难以有效地训练和优化多智能体系统。此外MAS中的智能体需要在动态和不确定的环境中进行决策，这进一步增加了训练的难度。

量子计算作为一种新兴技术，利用量子力学的原理来处理信息，与经典计算机相比，量子计算机具有显著的优势。量子计算机使用量子比特（qubits）而不是经典比特来存储和处理数据。由于量子比特可以同时存在于多个状态（叠加态），并且可以通过纠缠产生强关联，量子计算机能够在某些特定问题上实现指数级的加速。

在强化学习（RL）领域，量子计算的应用前景非常广阔。传统的RL算法在处理高维状态空间和动作空间时往往效率低下，而量子计算可以通过减少可训练参数的数量来显著提高训练效率。例如，变分量子电路（VQC）作为一种参数化的量子电路，可以通过经典优化方法进行训练，已经在深度强化学习中展示了其潜力。

虽然量子强化学习（QRL）结合了量子计算和强化学习的优势，能够在解决复杂问题时表现出色。然而QRL也面临一些新的挑战，例如贫瘠高原和梯度消失问题。研究人员正在探索各种方法来克服这些挑战，包括使用进化优化策略来优化量子电路的参数和架构。当前多智能体强化学习（MARL）在科学和工业领域的广泛应用，但其面临的维度指数增长问题限制了其性能。量子计算的固有特性可以显著减少可训练参数的数量，从而克服这些限制。因此来自于德国慕尼黑大学（LMU Munich）和美国南加州大学（USC）的研究团队希望通过结合量子计算和进化优化策略，提出一种新的方法来优化多智能体系统中的变分量子电路（VQC），以提高其在复杂环境中的性能。

研究团队包括Michael Kölle、Karola Schneider、Sabrina Egger、Felix Topp、Thomy Phan、Philipp Altmann、Jonas Nüßlein和Claudia Linnhoff-Popien。团队成员主要来自慕尼黑大学的计算机科学系，研究领域涵盖多智能体系统、量子计算和强化学习。Thomy Phan则来自南加州大学的计算机科学系，为该研究提供了跨大西洋的合作支持。

研究目标包括：

探索进化优化策略在多智能体量子强化学习中的应用。提出并评估三种不同的VQC架构变异策略：基于层的策略、基于门的策略和原型策略。比较这些策略在Coin Game环境中的性能，验证其有效性和优势。

预备知识

马尔可夫游戏框架

多智能体系统（MAS）中的智能体需要在动态环境中进行决策，这通常通过马尔可夫游戏框架来实现。马尔可夫游戏是一种扩展的马尔可夫决策过程（MDP），适用于多智能体环境。具体来说，马尔可夫游戏由以下几个部分组成：

智能体集合（D）：表示参与游戏的所有智能体，例如状态集合（S）：表示系统在任意时间点可能处于的所有状态。动作集合（A）：表示每个智能体在每个状态下可以采取的所有动作。转移概率（P）：表示系统从一个状态转移到另一个状态的概率，通常记为，其中St和St+1分别表示当前状态和下一状态，at表示当前动作。奖励函数（R）：表示智能体在采取某个动作后所获得的奖励，通常记为。在马尔可夫游戏中，每个智能体的目标是通过选择最优策略来最大化其累积奖励。智能体的策略通常通过值函数来评估，该函数表示在状态s下，智能体i采用策略所能获得的期望累积奖励。

独立学习在多智能体强化学习中的挑战

在多智能体强化学习（MARL）中，独立学习是一种常见的方法，即每个智能体独立地优化其策略，而不考虑其他智能体的策略。这种方法虽然简单，但在实际应用中面临许多挑战。

非平稳性：由于每个智能体的策略在不断变化，环境对每个智能体来说是非平稳的。这使得学习过程变得更加复杂，因为智能体需要不断适应其他智能体的策略变化。

维度灾难：随着智能体数量的增加，状态空间和动作空间的维度呈指数增长。这种维度灾难使得传统的强化学习算法难以有效地处理高维空间。

合作与竞争：在多智能体系统中，智能体之间既可能需要合作，也可能存在竞争。这种复杂的互动关系增加了策略优化的难度。

为了克服这些挑战，研究人员提出了多种方法，包括集中学习和分散执行、联合策略优化以及使用进化算法来优化智能体的策略。

自然选择和进化算法的基本概念

进化优化是一种受自然选择启发的优化方法，通过模拟生物进化过程来解决复杂问题。进化算法（EA）通常包括以下几个步骤：

初始化：生成一个包含多个个体的初始种群，每个个体代表一个可能的解决方案。评估：使用适应度函数评估每个个体的表现，适应度函数通常根据个体在问题上的表现来定义。选择：根据适应度值选择表现最好的个体进行繁殖，常用的方法包括轮盘赌选择、锦标赛选择等。交叉：通过交叉操作将两个或多个个体的基因组合生成新的个体，模拟生物的繁殖过程。变异：通过变异操作随机改变个体的基因，增加种群的多样性，防止陷入局部最优解。替换：用新生成的个体替换种群中的部分或全部个体，形成新一代种群。

这一过程不断重复，直到满足终止条件，如达到最大迭代次数或适应度值达到预定阈值。

进化优化在神经网络和量子电路中的应用

进化优化在神经网络和量子电路的优化中得到了广泛应用。在神经网络中，进化算法可以用于优化网络结构和权重参数，从而提高模型的性能。例如，遗传算法（GA）和差分进化（DE）已被成功应用于神经网络的训练和优化。

在量子计算领域，进化优化同样显示出巨大的潜力。变分量子电路（VQC）是一种参数化的量子电路，通过经典优化方法进行训练。由于量子电路的参数空间通常非常复杂，传统的梯度下降方法可能会遇到梯度消失和贫瘠高原问题。进化算法通过无梯度的优化方法，可以有效地探索参数空间，避免这些问题。

量子比特和叠加态

量子计算的基本单位是量子比特（qubit），与经典比特不同，量子比特可以同时存在于多个状态（叠加态）。一个量子比特的状态可以表示为

，

其中

和是基态，和β是复数系数，满足归一化条件

。

叠加态使得量子计算机能够在同一时间处理多个计算路径，从而实现并行计算。这种并行性是量子计算机相对于经典计算机的一个重要优势。

量子纠缠和量子计算的优势

量子纠缠是量子计算的另一个关键特性。当两个或多个量子比特处于纠缠态时，一个量子比特的状态会立即影响另一个量子比特的状态，无论它们之间的距离有多远。纠缠态可以表示为

，其中两个量子比特的状态是相互关联的。

量子纠缠使得量子计算机能够实现更高效的信息处理和传输，从而在某些特定问题上实现指数级的加速。例如，Shor算法可以在多项式时间内分解大整数，而经典算法则需要指数时间。

VQC的结构和训练方法

变分量子电路（VQC）是一种参数化的量子电路，通常由三个主要部分组成：状态准备、变分层和测量。

状态准备：将经典输入数据编码到量子态中，常用的方法包括幅度嵌入、角度嵌入等。

变分层：由多个单量子比特旋转门和纠缠门组成，通过调整这些门的参数来优化电路性能。

测量：在计算基中测量量子态，得到期望值，并将其用于优化目标函数。

VQC的训练过程通常使用经典优化方法，如梯度下降、进化算法等，通过调整电路参数来最小化目标函数。

VQC在深度强化学习中的应用

VQC在深度强化学习（Deep RL）中展示了其潜力。与经典神经网络相比，VQC可以在减少参数数量的情况下实现相似甚至更好的性能。这是因为量子计算的并行性和纠缠特性使得VQC能够更高效地表示和处理复杂的函数。

在多智能体强化学习中，VQC可以用于建模每个智能体的策略，通过进化优化方法调整电路参数，提高智能体在复杂环境中的决策能力。例如，在Coin Game环境中，使用VQC的智能体表现显著优于使用经典神经网络的智能体，展示了VQC在多智能体系统中的应用前景。

方法

Kölle等人的进化算法

图1:Kölle等人使用的变分量子电路。

Kölle等人提出了一种基于进化优化的算法，用于优化多智能体强化学习中的变分量子电路（VQC）。该算法的核心思想是通过模拟自然选择过程，逐步优化智能体的策略，该算法包括以下几个步骤：

初始化种群：生成一个包含多个个体的初始种群，每个个体代表一个可能的解决方案。在VQC的情况下，每个个体对应一个具有特定参数设置的量子电路。评估适应度：使用适应度函数评估每个个体的表现。适应度函数通常根据个体在特定任务中的表现来定义，例如在Coin Game中的得分。选择：根据适应度值选择表现最好的个体进行繁殖。常用的方法包括轮盘赌选择和锦标赛选择。交叉和变异：通过交叉操作将两个或多个个体的基因组合生成新的个体，并通过变异操作随机改变个体的基因，以增加种群的多样性。替换：用新生成的个体替换种群中的部分或全部个体，形成新一代种群。

这一过程不断重复，直到满足终止条件，如达到最大迭代次数或适应度值达到预定阈值。

层次交叉变异、随机交叉变异和仅变异策略

图2:Kölle等人的训练循环。

在Kölle等人的研究中，提出了三种不同的进化策略：层次交叉变异、随机交叉变异和仅变异策略。

层次交叉变异（LaReMu）：在这种策略中，交叉操作在特定的层次上进行，即选择一个随机层次，并在该层次之后进行交叉。这种方法的优点是可以保留每个个体的部分结构，同时引入新的基因组合。随机交叉变异（RaReMu）：在这种策略中，交叉操作在参数向量的随机点进行，即选择一个随机点，并在该点之后进行交叉。这种方法的优点是可以引入更多的基因多样性，但可能会破坏个体的结构。仅变异（Mu）：在这种策略中，不进行交叉操作，仅通过变异操作生成新的个体。这种方法的优点是简单且计算效率高，但可能会导致种群的多样性不足。

在实验中，Kölle等人发现，仅变异策略在性能上显著优于其他两种策略。因此，在后续的实验中，他们主要采用了仅变异策略。

为了进一步优化VQC的性能，研究团队提出了三种不同的架构变异策略：基于层的策略、基于门的策略和原型策略。

基于层的策略

基于层的策略受强纠缠层的启发，所有量子比特通过CNOT门纠缠，并进行RX、RY和RZ旋转。在进化过程中，层数可以通过变异和重组增加或减少。具体来说，进化算法通过重组一个电路的初始层和另一个电路的最终层来创建新的电路。变异则通过添加或删除整个层来改变电路的设计，从而保持整体层结构。在实验中，研究团队发现，基于层的策略在开始时表现较好，但随着进化的进行，其性能逐渐下降。

基于门的策略

基于门的策略消除了门的层次组织，而是通过随机选择的门应用于随机选择的量子比特来构建电路。这些门从预定义的门集合（如RX、RY、RZ和CNOT）中选择，并放置在量子比特上。在进化步骤中，调整在门级别进行，包括删除、添加或替换门，以及通过重组两个父电路的门来创建新的电路。研究团队发现，基于门的策略在性能上显著优于基于层的策略，特别是在收集硬币数量和自有硬币率方面表现最佳。

原型策略

原型策略结合了基于层和基于门的方法，通过创建具有重复层的电路，同时在门级别进行变异。一个层的构建类似于基于门的电路，然后将生成的门排列称为原型，并在电路的所有层中重复。进化过程中的变异与基于门的方法相同，影响电路的原型。研究团队发现，原型策略在性能上介于基于层和基于门的策略之间，但在某些情况下表现出色。

图3：包含架构更改的方法的训练循环

通过这些架构变异策略，研究团队能够探索不同的电路设计，并优化VQC在多智能体强化学习中的性能。实验结果表明，基于门的策略在整体性能和计算效率上均优于其他策略，展示了其在复杂环境中的应用潜力。

实验设置

Coin Game的设置和规则

Coin Game是一种用于评估多智能体强化学习（MARL）算法的经典环境。它在一个3x3的网格世界中进行，网格中的每个单元格可以包含一个智能体或一个硬币。游戏的目标是通过收集硬币来最大化智能体的奖励。

智能体和硬币：游戏中有两个智能体，分别为红色智能体和蓝色智能体。每个智能体都有一个对应颜色的硬币，硬币随机出现在网格中的空闲单元格上。

动作空间：每个智能体可以选择四个动作之一：向北移动、向南移动、向西移动和向东移动。智能体不能移动到网格外，也不能移动到被另一个智能体占据的单元格。

奖励机制：当一个智能体移动到包含硬币的单元格时，它会收集该硬币并获得奖励。收集到与自己颜色相同的硬币时，智能体获得+1的奖励；收集到与自己颜色不同的硬币时，智能体获得-1的奖励。每次收集硬币后，新的硬币会随机出现在网格中的空闲单元格上。

图4：硬币游戏的示例状态

合作模式和竞争模式的区别

Coin Game可以在合作模式和竞争模式下进行，这两种模式的主要区别在于智能体的奖励机制和策略目标。

合作模式：在合作模式下，智能体的目标是最大化整个系统的总奖励。智能体需要合作，尽量收集与自己颜色相同的硬币，同时避免收集对方的硬币。这样可以确保每个智能体都能获得正奖励，从而提高系统的整体表现。

竞争模式：在竞争模式下，智能体的目标是最大化自己的奖励，同时尽量减少对方的奖励。智能体不仅要收集与自己颜色相同的硬币，还要尽量阻止对方收集硬币，甚至可以通过收集对方的硬币来减少对方的奖励。这种模式下，智能体之间存在竞争关系，策略更加复杂。

为了评估变分量子电路（VQC）在多智能体强化学习中的性能，研究团队设置了两种基线：神经网络基线和静态基线。

神经网络基线

神经网络基线使用经典的神经网络作为智能体的策略模型。具体来说，研究团队使用了一个两层的神经网络，其中第一层将输入观测值映射到隐藏单元，第二层将隐藏单元连接到可能的动作。这个配置生成了每个动作的Q值，与VQC方法类似。为了防止选择非法动作，Q值通过动作掩码进行调整。研究团队重点关注这种特定的神经网络，并通过调整隐藏单元的数量来影响结果。

静态基线

静态基线使用一个固定架构的VQC，其中包含8层的基于层的方法。在这种基线中，只有参数发生变化，架构保持不变。研究团队采用仅变异策略，参数变异强度设为σp = 0.01。通过这种基线，研究团队可以评估在不改变架构的情况下，VQC的性能表现。

为了全面评估智能体在Coin Game环境中的表现，研究团队使用了以下四个评估指标：

得分（Score）：累积的个体奖励。这个指标反映了智能体在游戏中的整体表现。总收集硬币数（Total Coins Collected）：所有智能体在游戏中收集的硬币总数。这个指标帮助理解智能体的总收集能力。自有硬币数（Own Coins Collected）：智能体收集的与自身颜色匹配的硬币数。这个指标反映了智能体在合作模式下的表现。自有硬币率（Own Coin Rate）：自有硬币数与总收集硬币数的比率。这个指标用于评估智能体的合作水平。

为了确保实验的公平性和结果的可靠性，研究团队在训练过程中设置了详细的训练设置和超参数选择。

训练设置

在所有实验中，智能体在Coin Game环境中进行训练，每次游戏持续50步，每个智能体执行25步。研究团队训练了200代，每代包含250个个体。多次实验表明，200代足以使进化过程稳定并生成优化的智能体。

图5：在每一代50步硬币游戏中，对10个种子进行平均，比较（a）收集的平均硬币，（b）收集的自身硬币平均值和自身硬币汇率（c）。

超参数选择

研究团队根据不同的架构策略调整了一些超参数，以确保良好的性能。以下是一些关键超参数的选择：

变异强度（σ）：在仅变异策略中，变异强度设为σ = 0.01。

锦标赛选择大小（τ）：选择种群中40%的个体进行锦标赛选择，即τ = 100。

初始层数和门数：基于层的电路初始层数设为1，基于门的电路初始门数设为70，原型电路初始层数设为8，每层包含18个门。

通过这些设置和超参数选择，研究团队能够系统地评估不同架构策略在多智能体强化学习中的性能，并验证其有效性和优势。

实验结果

在本研究中，研究团队比较了三种进化策略：仅变异策略（Mu）、层次交叉变异策略（LaReMu）和随机交叉变异策略（RaReMu）。实验结果表明，仅变异策略在性能上显著优于其他两种策略。

仅变异策略（Mu）：在实验初期，Mu策略的平均得分为5，略有下降后在第17代达到最低点4，然后逐渐上升并在第140代稳定在7左右。相比之下，LaReMu和RaReMu策略的表现较差。LaReMu策略在第30代达到6的平均得分后，表现趋于稳定，而RaReMu策略在第131代达到6的得分后，最终稳定在5.5左右。

在硬币收集数量方面，Mu策略也表现最佳，始终领先于其他两种策略，硬币收集数量最多，合作率最高。因此，研究团队在后续实验中主要采用了仅变异策略。

研究团队还比较了不同层数的变分量子电路（VQC）的性能，包括4层、6层、8层和16层的VQC。实验结果显示，8层VQC的表现最佳。

4层VQC：初始得分略低于3，逐渐上升并在第175代后稳定在5左右。6层VQC：得分在第62代前逐渐上升，随后显著增加，在第165代达到最高点6.7，最终稳定在6.5左右。8层VQC：表现最佳，得分在第70代达到5.5，随后上升至第140代的7，并在此后保持稳定。16层VQC：得分在第25至70代显著增长，随后稳定在6左右，并在第160代上升至6.5。

在硬币收集数量方面，8层VQC也表现最佳，尽管初始硬币收集数量较低，但在第180代后稳定在8枚硬币左右。相比之下，4层VQC的硬币收集数量较少，表现最差。

研究团队将VQC与经典神经网络进行了比较，包括小型神经网络和大型神经网络。

VQC vs. 小型神经网络：VQC拥有148个参数，而小型神经网络有147个参数。尽管VQC的初始学习曲线较慢，但最终得分显著高于小型神经网络。VQC在硬币收集数量和自有硬币率方面也表现更好，展示了其在复杂函数表示上的优势。

VQC vs. 大型神经网络：大型神经网络拥有6788个参数（是VQC的46倍），但两者的最终表现相似。VQC在初始硬币收集上表现更好，而大型神经网络在学习曲线上更陡峭，最终达到相似的硬币数量和自有硬币率。这表明VQC在大幅减少参数的情况下，仍能实现与大型神经网络相当的性能。

研究团队比较了三种架构变异策略：基于层的策略、基于门的策略和原型策略。

基于层的策略：初始表现较好，但随着进化的进行，性能逐渐下降。基于门的策略：表现最佳，得分迅速上升并稳定在接近12。硬币收集数量和自有硬币率也最高。原型策略：表现介于基于层和基于门的策略之间，但在某些情况下表现出色。

在自有硬币率方面，基于门的策略表现最佳，从第17代开始领先于其他策略，并在第60代达到0.97。基于层的策略和原型策略的表现较差，最终稳定在0.9左右。

研究团队还将基于门的VQC与静态基线进行了比较。静态基线使用8层的基于层的方法，仅改变参数，不改变架构。

图6：基于门的方法（有50个初始门）和静态方法（没有架构变化）在5个种子上的平均最佳和平均得分。

70门基于门的VQC：最佳代理得分在第40代达到10，比静态基线早100代，最终得分接近12。50门基于门的VQC：最佳代理得分与静态基线相当，但使用更少的门和更短的计算时间，效率更高。

这些结果表明，灵活的基于门的架构在性能和计算效率上均优于其他策略，展示了其在多智能体强化学习中的应用潜力。

讨论

进化优化策略的有效性

在本研究中，研究团队比较了三种进化优化策略：仅变异策略（Mu）、层次交叉变异策略（LaReMu）和随机交叉变异策略（RaReMu）。实验结果表明，仅变异策略在性能上显著优于其他两种策略。这一发现具有重要意义，因为它表明在多智能体强化学习（MARL）中，简单的变异操作可以有效地探索解决方案空间，并找到高质量的解决方案。

仅变异策略的优势在于其计算效率高且实现简单。通过避免复杂的交叉操作，仅变异策略能够更快地生成新个体，并在较短时间内评估其适应度。这对于需要大量计算资源的量子电路优化尤为重要。此外，仅变异策略能够保持种群的多样性，避免陷入局部最优解，从而提高整体性能。

层次交叉变异策略和随机交叉变异策略虽然在某些情况下也能找到较好的解决方案，但其复杂性和计算成本较高。特别是随机交叉变异策略，由于其随机性较强，可能会破坏个体的结构，导致性能下降。因此，在实际应用中，仅变异策略更具优势。

架构变异策略的优势

研究团队提出了三种架构变异策略：基于层的策略、基于门的策略和原型策略。实验结果显示，基于门的策略在整体性能和计算效率上均优于其他策略。

基于门的策略通过随机选择和应用量子门，消除了门的层次组织，使得电路结构更加灵活。这种灵活性使得基于门的策略能够更有效地适应任务需求，并在较短时间内找到高质量的解决方案。实验结果表明，基于门的策略在得分、总收集硬币数和自有硬币率方面表现最佳，展示了其在多智能体强化学习中的应用潜力。

相比之下，基于层的策略和原型策略在某些情况下也能找到较好的解决方案，但其灵活性较差，导致性能不如基于门的策略。特别是基于层的策略，由于其层次结构固定，难以适应复杂任务的需求，表现较差。

VQC在多智能体强化学习中的潜力

变分量子电路（VQC）在多智能体强化学习中展示了巨大的潜力。与经典神经网络相比，VQC能够在减少参数数量的情况下实现相似甚至更好的性能。这主要得益于量子计算的并行性和纠缠特性，使得VQC能够更高效地表示和处理复杂的函数。

实验结果表明，VQC在多智能体强化学习中的表现显著优于经典神经网络，特别是在硬币收集数量和自有硬币率方面。即使与参数数量大大增加的神经网络相比，VQC仍能保持相似的性能，展示了其在复杂环境中的应用前景。

此外，VQC在解决多智能体系统中的维度灾难问题方面也具有优势。通过减少可训练参数的数量，VQC能够更高效地处理高维状态空间和动作空间，从而提高训练效率和性能。

未来研究方向

目前的实验主要在模拟环境中进行，未来可以在真实量子硬件上进行实验，以验证结果的可行性和有效性。真实量子硬件可能会引入更多的噪声和误差，需要进一步优化电路设计和训练方法。

本研究主要在Coin Game环境中进行，未来可以将方法扩展到更复杂的任务和环境，如自动驾驶、机器人控制等。这些任务具有更高的维度和复杂性，能够更全面地评估VQC的性能。

除了进化优化策略，还可以结合其他优化方法，如强化学习中的策略梯度方法、遗传算法等，以进一步提高VQC的性能。多种优化方法的结合可能会带来更好的结果。

未来研究可以进一步探索多智能体系统中的合作与竞争关系，设计更复杂的奖励机制和策略优化方法，以提高系统的整体性能和智能体的协作能力。

通过这些研究，团队希望为未来的多智能体量子强化学习研究提供新的思路和方法，推动这一领域的发展。（END）

参考资料：https://arxiv.org/pdf/2407.20739v1

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

多智能体系统中的量子电路优化——从理论到实践

独角也有噬元兽