国家重点研发计划成果：多智能体系统中的分层共识机制

多智能体协作系统能够解决单智能体不能解决的任务，是人工智能应用领域最有前景的系统，多智能体强化学习（MARL）近年来在人工智能领域引起了广泛关注。其核心思想是通过多个智能体的协同合作来解决复杂任务，这些任务通常单个智能体难以独立完成。MARL的应用场景非常广泛，在工业自动化中，多个机器人需要协同工作以完成复杂的制造任务。例如，在装配线上，不同的机器人需要协调动作以确保生产效率和质量。在自动驾驶领域，多个无人驾驶车辆需要在同一环境中协同工作，以避免碰撞并优化交通流量。在能源管理中，多个智能电表和设备需要协同工作，以优化能源分配和使用效率。在多人在线游戏中，多个玩家角色需要协同合作以完成任务和挑战。MARL的优势在于其能够处理动态和不确定的环境，通过智能体之间的合作来提高整体系统的性能和效率。然而MARL也面临着许多挑战，特别是在智能体之间的通信和协调方面。

集中训练与分散执行（CTDE）是MARL中常用的框架之一。在CTDE框架中，智能体在训练阶段可以访问全局信息，从而学习到更好的策略；而在执行阶段，智能体只能依赖局部观察进行决策。CTDE框架的优势在于其能够利用全局信息进行有效的策略学习，同时在执行阶段保持智能体的独立性。但是CTDE框架也存在一些局限性。

缺乏全局共识：在执行阶段，智能体只能依赖局部观察，缺乏全局共识。这导致智能体在协作任务中可能无法有效协调，影响整体性能。通信开销：虽然CTDE框架在训练阶段可以利用全局信息，但在执行阶段智能体之间的通信仍然是一个挑战。过多的通信会增加系统的开销，影响实时性和效率。部分可观测性：在许多实际应用中，智能体只能获取到部分环境信息，这使得策略学习和执行更加复杂。

为了克服这些局限性，研究人员提出了多种改进方法，包括基于通信的MARL、内在奖励机制和均场理论等。然而这些方法在处理复杂任务时仍然面临挑战。

来自北京航空航天大学的团队基于解决CTDE框架在多智能体协作任务中的局限性的动机，为了提高智能体在执行阶段的协作能力，研究团队提出了一种新的框架——基于分层共识的多智能体强化学习（HC-MARL）。该框架通过对比学习构建全局共识，使智能体在没有直接通信的情况下实现协作行为。

具体来说，HC-MARL框架的目标包括：

构建全局共识：通过对比学习，从局部观察中构建全局共识，增强智能体在执行阶段的协作能力。分层共识机制：引入短期和长期共识，优化即时反应和战略规划之间的平衡。自适应注意机制：动态调整各层共识的影响力，根据任务的具体需求优化智能体的决策过程。

通过这些创新，HC-MARL框架旨在显著提升多智能体系统在复杂协作任务中的性能。

北京航空航天大学的团队成员包括冯璞、梁俊康、王思泽、于鑫、石荣烨和吴文俊。项目研究得到了中国国家重点研发计划(2022ZD0116401)和国家自然科学基金(62306023)的部分支持。研究团队在多智能体系统和强化学习领域具有丰富的研究经验和深厚的学术背景。他们的研究工作不仅在理论上具有创新性，同时也在实际应用中展示了显著的效果。通过这项研究，团队希望为多智能体协作任务提供新的解决方案，推动该领域的发展。

HC-MARL框架概述

在多智能体强化学习（MARL）中，集中训练与分散执行（CTDE）框架是一个常见的策略。这种方法在执行阶段依赖于局部观察，缺乏全局共识，导致智能体在协作任务中的表现受限。为了解决这一问题，研究团队提出了基于分层共识的多智能体强化学习（HC-MARL）框架。

图1：CTDE 框架中的环境状态与局部观察之间的关系。尽管局部观察不同，但它们都对应于每个时间步的相同环境状态，从而提供统一全局状态的不同视角。在传统的 CTDE 方法中，代理在执行过程中仅依赖这些局部观察进行决策。

HC-MARL框架的核心思想是通过对比学习构建全局共识，使智能体在没有直接通信的情况下实现协作行为。具体来说，HC-MARL框架引入了分层共识机制，将共识分为短期共识和长期共识，以优化即时反应和战略规划之间的平衡。

短期共识基于当前时间步的状态，主要关注即时反应。而长期共识则考虑多个时间步的信息，利用历史状态信息进行战略规划。这种分层共识机制使得智能体能够在不同的任务需求下动态调整其决策过程，从而提高整体系统的性能。

对比学习是一种自监督学习方法，通过最小化同一样本的不同增强版本之间的距离，同时最大化不同样本之间的距离，来增强模型对等价数据表示的理解。在HC-MARL框架中，对比学习被用于构建全局共识。

具体实现上，研究团队采用了无标签知识蒸馏（DINO）方法，这是一种基于教师-学生网络架构的对比学习方法。对于给定的样本，通过数据增强生成新的样本，并分别输入到学生网络和教师网络中，生成分类分布。在没有真实标签的情况下，教师网络的输出作为伪标签，学生网络通过最小化其输出与这些伪标签之间的交叉熵损失进行优化。

在多智能体强化学习场景中，不同智能体的局部观察可以视为同一全局状态的不同增强样本。因此，全局共识对应于教师-学生网络框架中的分类输出。通过构建这种共识度量，HC-MARL框架旨在引导智能体在局部观察下形成全局合作。

图2：动态状态信息的重要性：该图将代理表示为绿色三角形，将邻居表示为蓝色三角形。代理的方向由三角形的垂直位置表示，其运动方向由箭头表示。左侧显示环境状态，右侧显示 CTDE 内执行时可用的信息。静态环境信息提供位置和方向，而动态信息还提供速度数据。

为了进一步优化智能体的决策过程，HC-MARL框架引入了自适应注意机制。该机制通过动态调整各层共识的影响力，根据任务的具体需求优化即时反应和战略规划之间的平衡。

具体来说，自适应注意机制将每一层的共识输出作为输入，通过多头注意力机制动态加权不同层次的共识，形成上下文加权的组合。这种方法使得智能体能够在不同的任务场景下灵活调整其决策过程，从而提高整体系统的性能。

在HC-MARL框架中，注意力加权的共识作为增强的观察输入，集成到多智能体强化学习框架中。训练阶段利用其他智能体的信息，而执行阶段仅依赖局部观察，确保与CTDE范式兼容。这种设计原则使得HC-MARL框架能够无缝集成到各种MARL算法中，显著提升多智能体系统在复杂协作任务中的性能。

详细方法

1. 共识构建器

在多智能体系统中，每个智能体只能基于其局部观察进行决策。然而这些局部观察实际上是同一全局状态的不同视角。换句话说，尽管每个智能体的观察可能有所不同，但它们都对应于同一个环境状态。这种关系如同在一个城市中，不同的人可能在不同的地点观察到不同的景象，但这些景象都是该城市整体状态的一部分。

为了在没有直接通信的情况下实现智能体之间的协作，研究团队提出了通过对比学习构建全局共识的方法。通过这种方法，智能体可以从局部观察中推断出全局状态，从而在执行任务时能够更好地协同工作。

对比学习是一种自监督学习方法，通过最小化同一样本的不同增强版本之间的距离，同时最大化不同样本之间的距离，来增强模型对等价数据表示的理解。在HC-MARL框架中，研究团队采用了无标签知识蒸馏（DINO）方法，这是一种基于教师-学生网络架构的对比学习方法。

具体实现上，对于给定的样本，通过数据增强生成新的样本，并分别输入到学生网络和教师网络中，生成分类分布。在没有真实标签的情况下，教师网络的输出作为伪标签，学生网络通过最小化其输出与这些伪标签之间的交叉熵损失进行优化。

为了优化共识构建过程，研究团队定义了一个交叉熵损失函数。具体来说，对于每个智能体i，其局部观察的分类分布由学生网络生成，记为PS(oi)，而教师网络生成的分类分布记为PT(oi)。共识构建的优化目标是最小化这些分布之间的交叉熵损失，公式如下：

其中，i和j是智能体的索引，k是分类类别。通过最小化这个损失函数，HC-MARL框架能够构建出一致的全局共识，从而提高智能体的协作能力。

2. 分层共识机制

在实际应用中，从单一时刻的局部观察中获取完整有效的全局共识是具有挑战性的。为了解决这一问题，研究团队引入了分层共识机制，将共识分为短期共识和长期共识。

短期共识：基于当前时间步的状态，主要关注即时反应。例如，在需要立即避碰的场景中，智能体会优先考虑短期共识。

长期共识：考虑多个时间步的信息，利用历史状态信息进行战略规划。例如，在协作搜索任务中，智能体会依赖长期共识来有效分配搜索区域。

这种分层共识机制使得智能体能够在不同的任务需求下动态调整其决策过程，从而提高整体系统的性能。

为了构建长期共识，研究团队引入了多时间步观察。具体来说，对于每个智能体i，其在多个时间步的观察记为

，其中m表示包含的历史观察数量。

通过对比学习，HC-MARL框架能够从这些多时间步的观察中构建出长期共识。优化目标是最小化这些观察之间的交叉熵损失，公式如下：

通过这种方法，HC-MARL框架能够捕捉到环境状态的显著变化，从而构建出更为准确的长期共识。

为了进一步优化智能体的决策过程，HC-MARL框架引入了多头注意力机制。该机制通过动态调整各层共识的影响力，根据任务的具体需求优化即时反应和战略规划之间的平衡。

具体来说，多头注意力机制将每一层的共识输出作为输入，通过多头注意力机制动态加权不同层次的共识，形成上下文加权的组合。公式如下：

其中，

表示智能体i的注意力加权共识，Q、K和V分别对应于查询、键和值函数。这些函数将共识输入映射到一个空间中，以评估各层共识的相关性。多头注意力机制聚合这些映射表示，根据其对当前决策上下文的重要性分配权重。

图3：分层共识机制概述。x m i和x m j表示第m层来自同一环境状态的不同局部观察，用于通过师生网络推导出全局共识分类。不同层的共识通过多头注意力聚合成注意力加权共识。

3. HC-MARL框架的集成

图4:HC-MARL框架概述。从左到右依次：代理最初从环境中获取局部观测值。这些观察结果随后由分层共识构建器处理，产生当前的共识类。这一衍生共识，记为c att i，丰富了代理人的观测或状态数据。然后，它被纳入政策和批评网络，从而引导代理人的行动与集体确定的全球共识保持一致。

在HC-MARL框架中，注意力加权的共识作为增强的观察输入，集成到多智能体强化学习框架中。这种设计原则确保了HC-MARL框架能够无缝集成到各种MARL算法中，显著提升多智能体系统在复杂协作任务中的性能。

HC-MARL框架在训练阶段利用其他智能体的信息，而在执行阶段仅依赖局部观察。这种设计原则确保了框架与CTDE范式兼容，同时最大限度地利用全局信息进行策略学习。

在训练阶段，智能体可以访问全局信息，从而学习到更好的策略；而在执行阶段，智能体只能依赖局部观察进行决策。通过这种方式，HC-MARL框架能够在保持智能体独立性的同时，提升其协作能力。

图5、图 6、图 7:HC-MARL、MAPPO、HAPPO在捕食者-捕食者、在 Rendezvous、导航任务上的任务中的学习曲线。每个实验用不同的随机种子执行5次。

为了验证HC-MARL框架的有效性，研究团队在MAPPO（Multi-Agent Proximal Policy Optimization）算法中进行了具体实现。具体来说，通过将共识信息集成到观察输入中，优化目标如下：

其中，

和

分别表示当前和下一个时间步的注意力加权共识信息。演员网络的更新公式如下：

通过这种方式，HC-MARL框架能够在MARL过程中无缝集成共识信息，提供更为全面的环境理解，从而增强学习机制。

实验与结果

1. 实验设置

实验环境与任务描述

为了验证HC-MARL框架的有效性，研究团队在Webots仿真环境中构建了三个合作任务：捕食者-猎物任务、集合任务和导航任务。这些任务旨在测试多智能体系统在不同协作场景下的表现。

捕食者-猎物任务：在这个任务中，多个捕食者需要通过移动追捕猎物。捕食者的数量分别设置为3、5和10，而猎物的数量固定为1。猎物的逃跑轨迹在训练和测试阶段都是随机生成的。

集合任务：在集合任务中，智能体需要从随机初始位置聚集到一起，没有指定的目标点。智能体的数量分别设置为3、5和10。

导航任务：在导航任务中，智能体需要穿过两个障碍物并到达目标点，同时避免与其他智能体和障碍物碰撞。

图8：实验中考虑的模拟任务。

基线算法的选择与对比

为了评估HC-MARL框架的性能，研究团队选择了两种主流的多智能体强化学习算法作为基线进行对比：

MAPPO（Multi-Agent Proximal Policy Optimization）：一种基于CTDE框架的多智能体强化学习算法，采用集中训练和分散执行的策略。HAPPO（Heterogeneous-Agent Proximal Policy Optimization）：MAPPO的变种，适用于异质智能体的多智能体强化学习算法。

在实验中，HC-MARL框架基于MAPPO架构进行实现，以确保与基线算法的公平比较。

2. 主要结果

在捕食者-猎物任务中，HC-MARL框架在收敛奖励和收敛速度上均优于基线算法。具体来说，HC-MARL框架在三个、五个和十个捕食者的设置下，均表现出更快的收敛速度和更高的收敛奖励。

实验结果表明，HC-MARL框架在捕食者-猎物任务中显著提升了智能体的协作能力。通过引入分层共识机制，智能体能够更好地协调行动，从而更有效地捕捉猎物。此外，HC-MARL框架在训练后完成任务所需的步数显著少于基线算法，进一步证明了其在提高任务效率方面的优势。

在集合任务中，HC-MARL框架同样表现出色。随着智能体数量的增加，HC-MARL框架相对于基线算法的性能优势更加明显。具体来说，在三个、五个和十个智能体的设置下，HC-MARL框架在收敛奖励和收敛速度上均优于基线算法。

分析这一现象可以发现，随着智能体数量的增加，任务的复杂性也随之上升。分层共识机制在这种情况下对算法性能的提升作用更加显著。实验结果表明，HC-MARL框架在集合任务中能够更好地处理复杂的协作需求，提高了智能体的整体表现。

在导航任务中，HC-MARL框架显著提高了任务奖励，尤其是在智能体数量较多时表现更佳。具体来说，在三个智能体的任务中，HC-MARL框架的任务奖励比HAPPO和MAPPO高出约20%；在十个智能体的任务中，HC-MARL框架的任务奖励比基线算法高出约35%。

此外，实验结果还表明，HC-MARL框架在十个智能体的任务中完成任务所需的步数显著减少。具体来说，HC-MARL框架仅需700步即可完成任务，比HAPPO减少了30%，比MAPPO减少了40%。这些结果进一步证明了HC-MARL框架在提高任务效率和智能体协作能力方面的优势。

3. 消融研究

图9：HC-MARL 在 Rendezvous 任务中的消融研究。

为了评估全局共识类别对任务表现的影响，研究团队在集合任务中进行了消融研究。具体来说，研究团队测试了全局共识类别k分别为1、4、8和16的情况，并在智能体数量为3、5和10的设置下进行了实验。

实验结果表明，当k>1时，任务的收敛奖励显著高于k=1的情况。这表明共识机制对任务表现有显著的提升作用。对于3个和5个智能体的任务，k=4时的表现最佳；对于10个智能体的任务，k=8时的表现最佳。这表明在较简单的场景中，较少的共识类别即可达到最佳效果，而在较复杂的场景中，则需要更多的共识类别以优化训练效果。

研究团队还评估了共识层数m对任务表现的影响。具体来说，研究团队测试了m分别为1（无层次）、3、5和10的情况，并在集合任务中进行了实验。

实验结果表明，当m=5时，任务的收敛奖励达到最佳。这表明增加共识层数可以提高任务表现，但过多的层数会增加训练复杂性和不稳定性，导致训练效率下降。因此，适当的共识层数对于优化任务表现至关重要。

4. 实际实验验证

为了验证HC-MARL框架的实际应用效果，研究团队在E-puck机器人群体上进行了实验。实验使用了NOKOV运动捕捉系统进行室内定位，并在捕食者-猎物、集合和导航任务中进行了测试。

在捕食者-猎物任务中，HC-MARL算法比MAPPO减少了16%的步数，比HAPPO减少了19%的步数。在集合任务中，HC-MARL算法比MAPPO减少了10%的步数，比HAPPO减少了15%的步数。在导航任务中，HC-MARL算法比MAPPO减少了30%的行驶距离，比HAPPO减少了34%的行驶距离，且没有发生任何碰撞。

这些结果表明，HC-MARL框架在实际应用中同样表现出色，显著提高了多智能体系统的任务效率和协作能力。通过引入分层共识机制和自适应注意机制，HC-MARL框架能够在不同任务场景下动态调整智能体的决策过程，从而实现更高效的协作。

图10：导航任务演示。左边是真实世界环境，右边是 Webots 模拟。

讨论

HC-MARL（Hierarchical Consensus-Based Multi-Agent Reinforcement Learning）框架在多智能体协作任务中展示了显著的性能提升。通过引入分层共识机制和自适应注意机制，HC-MARL框架能够在没有直接通信的情况下，实现智能体之间的高效协作。这种能力在多个实验任务中得到了验证，包括捕食者-猎物任务、集合任务和导航任务。

在捕食者-猎物任务中，HC-MARL框架显著提高了智能体的捕猎效率，减少了完成任务所需的步数。在集合任务中，随着智能体数量的增加，HC-MARL框架的性能优势更加明显，能够更快地实现智能体的聚集。在导航任务中，HC-MARL框架不仅提高了任务奖励，还显著减少了智能体的行驶距离和碰撞次数。这些结果表明，HC-MARL框架在处理复杂协作任务时，能够有效提升智能体的整体表现。

与传统的多智能体强化学习方法相比，HC-MARL框架具有以下几个显著的优越性：

全局共识构建：传统方法在执行阶段通常依赖局部观察，缺乏全局共识，导致智能体在协作任务中的表现受限。HC-MARL框架通过对比学习构建全局共识，使智能体能够在局部观察的基础上推断出全局状态，从而实现更高效的协作。分层共识机制：HC-MARL框架引入了短期共识和长期共识，优化了即时反应和战略规划之间的平衡。传统方法通常难以同时兼顾这两者，而HC-MARL框架通过分层共识机制，使智能体能够在不同任务需求下动态调整其决策过程。自适应注意机制：HC-MARL框架通过自适应注意机制，动态调整各层共识的影响力，根据任务的具体需求优化智能体的决策过程。传统方法通常缺乏这种灵活性，难以在不同任务场景下实现最佳性能。兼容性：HC-MARL框架能够无缝集成到各种多智能体强化学习算法中，确保与CTDE范式兼容。这种设计原则使得HC-MARL框架在实际应用中具有广泛的适用性和灵活性。

尽管HC-MARL框架在多智能体协作任务中展示了显著的性能提升，但仍存在一些局限性，HC-MARL框架引入了分层共识机制和自适应注意机制，增加了计算复杂性。在大规模多智能体系统中，这可能导致训练时间和资源消耗的增加。尽管HC-MARL框架能够在局部观察的基础上构建全局共识，但在某些高度复杂和动态变化的环境中，局部观察可能无法提供足够的信息，影响共识构建的准确性。虽然HC-MARL框架在仿真环境和E-puck机器人群体上进行了验证，但在更大规模和更复杂的实际应用场景中，其性能和适用性仍需进一步验证。

为了进一步提升HC-MARL框架的性能和适用性，未来的研究可以从以下几个方面进行改进。

优化计算效率：针对HC-MARL框架的计算复杂性问题，可以探索更高效的算法和优化技术，以减少训练时间和资源消耗。例如，可以引入分布式计算和并行处理技术，提高训练效率。

增强部分可观测性处理能力：为了提高HC-MARL框架在高度复杂和动态变化环境中的表现，可以探索更先进的感知和推理技术，增强智能体对环境状态的感知和理解能力。例如，可以结合深度学习和图神经网络技术，提升局部观察的表达能力。

扩展实际应用验证：为了验证HC-MARL框架在更大规模和更复杂实际应用场景中的性能，可以在更多实际应用中进行测试和验证。例如，可以在智能交通、智能制造和智能电网等领域进行应用验证，评估其在不同应用场景中的适用性和性能。

多模态信息融合：在实际应用中，智能体可能需要处理多种类型的信息，例如视觉、听觉和触觉信息。未来的研究可以探索多模态信息融合技术，提升HC-MARL框架在多模态信息处理和决策中的表现。

人机协作：在许多实际应用中，人类和智能体需要协同工作。未来的研究可以探索HC-MARL框架在人机协作中的应用，提升人机协作的效率和效果。例如，可以研究如何通过分层共识机制和自适应注意机制，实现人类和智能体之间的高效协作。

参考资料：https://arxiv.org/pdf/2407.08164

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

国家重点研发计划成果：多智能体系统中的分层共识机制

独角也有噬元兽