多智能体系统中的高效决策与去中心化强化学习的应用

随着技术的不断进步和数据量的爆炸性增长，大规模人工智能（AI）系统的需求日益增加。这些系统在交通管理、电力分配、城市规划等多个领域展现出巨大的潜力。但是如何在扩展AI模型的同时保持其性能，成为了一个亟待解决的难题。

大规模AI系统面临的主要挑战在于其可扩展性和性能的平衡。传统的集中式AI方法在处理复杂任务时，往往需要大量的通信和数据采样，这不仅增加了系统的复杂性和成本，还可能导致性能的下降。此外随着系统规模的扩大，通信延迟和数据传输的瓶颈也变得更加明显。例如在交通网络中，频繁且大规模的通信可能导致显著的功率损耗和信号干扰，从而影响系统的稳定性和效率。

分布式AI通过将复杂任务分解并分配给多个协作节点，可以显著提高系统的可扩展性。多智能体强化学习（MARL）作为分布式AI的一种先进范式，已经在自动驾驶、无线通信、多玩家游戏、电力系统和城市交通等多个场景中取得了显著进展。MARL的优势在于其能够通过数据进行非线性拟合，并实现高效的推理。然而，尽管MARL在理论上具有诸多优势，但其在实际应用中的可扩展性和效率仍然面临诸多挑战。

9 月 3 日自然（Nature）期刊-机器智能子刊发表的论文《Efficient and scalable reinforcement learning for large-scale network control》提出了一种基于模型的去中心化策略优化框架，旨在实现大规模网络控制中的高效可扩展强化学习。通过在智能体级别的拓扑解耦全局动态，论文证明了这种去中心化机制可以准确估计全局信息。此外论文引入了模型学习，以在有限的采样数据下强化最优策略，实现单调改进。实验证明，该方法在数百个智能体的实际系统中表现出优越的可扩展性，为大规模AI系统的扩展铺平了道路。

研究团队由来自北京大学和伦敦国王学院的多位学者组成，他们在人工智能和多智能体系统领域具有丰富的研究经验。具体成员有Chengdong Ma，来自北京大学人工智能研究院和多智能体研究中心的研究员，主要研究方向包括大规模网络控制和强化学习；Aming Li是北京大学人工智能研究院、多智能体研究中心以及工程学院系统与控制中心的研究员，研究领域涵盖系统控制和多智能体系统；Yali Du是伦敦国王学院信息学系的研究员，研究兴趣包括分布式AI和多智能体系统；Hao Dong是北京大学计算机科学学院CFCS的研究员，专注于计算机科学和人工智能的前沿研究；Yaodong Yang是北京大学人工智能研究院和多智能体研究中心的研究员，研究方向包括强化学习和多智能体系统。这篇论文发表在《自然》期刊的机器智能子刊上，体现了团队在该领域的技术实力和研究深度。

相关工作

在大规模网络控制领域，现有的方法面临着诸多挑战和局限性。论文将从通信和数据采样的高需求、传统方法的不足以及多智能体强化学习（MARL）的进展三个方面进行探讨。

图1:网络代理的研究动机和关系。

大规模AI系统通常需要频繁且大量的数据通信和采样，以确保系统的准确性和稳定性。然而这种高需求的通信和数据采样带来了以下几个主要问题。

首先是通信成本高，在大规模网络中，频繁的数据交换会导致通信成本显著增加。例如，在交通网络中，交通信号灯之间的频繁通信会导致功率损耗和信号干扰，从而影响系统的整体性能。频繁的通信不仅增加了系统的能耗，还可能导致网络拥堵和延迟，进一步影响系统的实时性和可靠性。

其次数据采样困难，随着系统规模的扩大，采集足够的数据变得更加困难和昂贵。在一些场景中，智能体与环境的交互次数受到限制，导致数据采样效率低下。例如，在智能交通系统中，获取足够的交通流量数据需要大量的传感器和数据采集设备，这不仅增加了成本，还可能受到设备故障和数据丢失的影响。

此外，数据的高需求还带来了隐私和安全问题。在一些涉及用户数据的系统中，集中式的信息收集增加了隐私泄露的风险。例如，在智能电网中，集中收集用户的用电数据可能导致用户隐私的泄露，进而引发安全问题。

传统的控制方法，如模型预测控制（MPC），在处理复杂系统时存在不足。

MPC方法需要精确的系统动态模型，而在复杂系统中，获取精确的动态模型往往非常困难。复杂系统通常具有高度的非线性和不确定性，传统的建模方法难以准确描述系统的动态行为。例如，在智能交通系统中，交通流量的变化受到多种因素的影响，包括天气、交通事故和道路施工等，这些因素的复杂性和不确定性使得建立精确的动态模型变得非常困难。

即使能够获得精确的动态模型，传统方法通常依赖于系统的线性化，这会忽略系统中的非线性因素和扰动，导致性能下降。线性化方法在处理小范围内的线性系统时效果较好，但在处理大范围内的非线性系统时，性能往往不尽如人意。例如，在智能电网中，电力系统的动态行为具有高度的非线性，传统的线性化方法难以准确描述系统的动态特性，导致控制效果不佳。

此外，传统方法在计算效率、数值稳定性和通信成本方面也存在不足，难以适应大规模系统的需求。传统方法通常需要大量的计算资源和时间来求解优化问题，计算效率低下，难以满足实时控制的要求。例如，在智能交通系统中，实时优化交通信号控制需要快速响应和高效计算，传统方法难以满足这一需求。

多智能体强化学习（MARL）作为分布式AI的一种先进范式，提供了一种可能的解决方案。MARL在多个领域取得了显著进展，展示了其在大规模网络控制中的潜力。

在自动驾驶领域，MARL用于协同车辆控制和交通信号优化，通过多智能体的协作，可以实现更高效的交通管理和更安全的驾驶体验。例如，在自动驾驶车队中，每辆车作为一个智能体，通过相互通信和协作，可以实现车队的协调控制，避免交通事故和提高行驶效率。

在无线通信中，MARL用于优化频谱分配和干扰管理，提高通信网络的效率和稳定性。通过多智能体的协作，可以实现频谱资源的动态分配和干扰的有效管理，提高通信网络的利用率和服务质量。例如在蜂窝网络中，每个基站作为一个智能体，通过相互通信和协作，可以实现频谱资源的动态分配和干扰的有效管理，提高网络的整体性能。

在多玩家游戏中，MARL用于策略优化和对手建模，提升了游戏AI的智能水平和互动体验。通过多智能体的协作，可以实现复杂游戏环境中的策略优化和对手建模，提高游戏AI的智能水平和互动体验。例如在多人在线游戏中，每个玩家作为一个智能体，通过相互通信和协作，可以实现游戏策略的优化和对手的建模，提高游戏的趣味性和挑战性。

在电力系统中，MARL用于电网的负载平衡和故障检测，提高了电力分配的可靠性和效率。通过多智能体的协作，可以实现电网的动态负载平衡和故障的快速检测，提高电力系统的可靠性和效率。例如在智能电网中，每个电力设备作为一个智能体，通过相互通信和协作，可以实现电网的动态负载平衡和故障的快速检测，提高电力系统的整体性能。

在城市交通管理中，MARL通过优化交通信号和车辆路径，显著减少了交通拥堵和排放，提高了城市交通的整体效率。通过多智能体的协作，可以实现交通信号的动态优化和车辆路径的智能规划，提高城市交通的整体效率和可持续性。例如，在智能交通系统中，每个交通信号灯和车辆作为一个智能体，通过相互通信和协作，可以实现交通信号的动态优化和车辆路径的智能规划，减少交通拥堵和排放，提高城市交通的整体效率。

尽管MARL在理论上具有诸多优势，但其在实际应用中的可扩展性和效率仍然面临诸多挑战。论文提出的基于模型的去中心化策略优化框架，旨在解决这些挑战，实现大规模网络控制中的高效可扩展强化学习。通过论文的研究，团队希望为大规模AI系统的可扩展性和高效性提供新的解决方案，并推动该领域的进一步发展。

方法

研究团队提出了一种基于模型的去中心化策略优化框架，旨在解决大规模网络控制中的高效可扩展强化学习问题。该方法通过局部观察和全局动态的拓扑解耦，实现了模型学习与策略优化的有效结合。此外，他们还引入了ξ依赖网络系统的概念，以更好地处理复杂系统中的环境转移问题。

模型驱动的去中心化策略优化框架

在大规模网络系统中，智能体需要在局部观察的基础上做出决策，而不依赖于全局信息。为此研究团队提出了一种基于拓扑解耦的去中心化机制，通过在智能体级别进行局部观察，实现对全局动态的准确估计。这种方法不仅减少了通信成本，还提高了系统的可扩展性。

具体来说，智能体通过与其邻居的局部通信，获取必要的信息来估计全局状态。通过这种方式，每个智能体只需处理与其直接相关的局部信息，而不需要获取整个系统的全局信息，从而大大降低了计算和通信的复杂性。

在该框架中，模型学习与策略优化紧密结合，以实现高效的决策过程。首先，智能体通过与环境的交互，收集状态、动作和奖励数据，并使用这些数据训练预测模型。然后，智能体在预测模型的基础上进行策略优化，以提高决策的准确性和效率。

为了进一步提高模型的准确性，研究团队引入了分支回滚方法。该方法通过从之前策略的状态分布中采样状态，并运行固定步数的回滚，结合模型驱动和无模型回滚的优势，减少了模型误差，提高了策略优化的效果。

图2:我们的方法架构、不同MDP之间的区别和联系以及模型学习过程。

ξ依赖网络系统

在大规模网络系统中，环境的动态行为通常具有一定的局部性，即局部状态和动作不会显著影响远处智能体的状态。基于这一观察，研究团队定义了独立网络系统（INS）和ξ依赖网络系统。

独立网络系统（INS）假设环境的转移函数可以因子化，即每个智能体的状态转移仅依赖于其局部邻居的状态和动作。然而这一假设在实际应用中往往过于强烈。因此，研究团队提出了ξ依赖网络系统的概念，允许一定程度的依赖偏差，即局部状态和动作对远处智能体的状态有一定的影响。

在ξ依赖网络系统中，环境的转移函数可以近似为独立网络系统的转移函数加上依赖偏差。通过这种方式，智能体可以在局部模型的基础上，预测未来的局部状态，从而实现高效的决策过程。

研究团队通过定义总变差距离（DTV）来度量真实环境转移函数与近似转移函数之间的差异。通过最小化这一差异，智能体可以在局部模型的基础上，准确预测未来的状态和奖励，从而提高策略优化的效果。

论文提出的基于模型的去中心化策略优化框架，通过局部观察和全局动态的拓扑解耦，实现了模型学习与策略优化的有效结合。引入的ξ依赖网络系统概念，为处理复杂系统中的环境转移问题提供了新的思路。通过这些方法，研究团队成功地在大规模网络控制中实现了高效可扩展的强化学习，为未来的研究和应用提供了重要的参考。

理论分析

在论文中，研究团队通过详细的理论分析，证明了所提出方法的有效性和可行性。主要从单调模型改进和策略梯度近似两个方面进行探讨。

单调模型改进

在模型驱动的强化学习中，策略回报的界限是评估策略性能的重要指标。研究团队定义了策略在真实环境中的回报和在近似模型中的回报，并构建了两者之间的差异界限。策略回报的界限可以表示为：

其中，η[π]表示策略在真实环境中的回报，η[π^]表示策略在近似模型中的回报，C是一个非负函数，πD是数据收集策略。通过确保每次策略更新至少提高一定的回报，可以实现单调改进。

为了进一步提高模型的准确性，研究团队引入了分支回滚方案。传统的回滚方法假设模型在无限时间范围内使用，而分支回滚方案则从之前策略的状态分布中采样状态，并运行固定步数的回滚。通过这种方式，分支回滚方案能够有效结合模型驱动和无模型回滚的优势，减少模型误差，提高策略优化的效果。

具体来说，分支回滚方案的优势在于：

减少模型误差：通过从之前策略的状态分布中采样状态，并运行固定步数的回滚，分支回滚方案能够有效减少模型误差，提高模型的准确性。提高策略优化效果：分支回滚方案结合了模型驱动和无模型回滚的优势，能够在保证模型准确性的同时，提高策略优化的效果。

策略梯度近似

在策略优化过程中，值函数用于计算优势函数。研究团队提出了一种扩展值函数的计算方法，通过邻居智能体的信息来近似全局值函数，扩展值函数可以表示为：

通过这种方式，扩展值函数能够在仅依赖邻居信息的情况下，准确估计全局值函数，从而提高策略优化的效果。

研究团队进一步证明了基于扩展值函数计算的策略梯度是实际策略梯度的近似。策略梯度的近似精度可以表示为：

其中，

表示实际策略梯度，

表示基于扩展值函数计算的策略梯度，

和

分别表示奖励和梯度的上界。通过这种方式，研究团队证明了基于扩展值函数计算的策略梯度在误差较小的情况下，能够有效近似实际策略梯度。

论文通过详细的理论分析，证明了所提出方法在单调模型改进和策略梯度近似方面的有效性和可行性。通过这些理论分析，研究团队为实现大规模网络控制中的高效可扩展强化学习提供了坚实的理论基础。

实验结果

在论文中，研究团队通过一系列实验验证了所提出方法在大规模网络控制中的有效性和可扩展性。实验涵盖了多个评估场景和指标，包括车辆控制、疫情网络控制和电力控制。以下是实验设置、结果分析以及与现有方法的性能对比。

图3 :主要训练结果和消融研究。

实验设置

为了全面评估所提出方法的性能，研究团队设计了多个实验场景，包括交通系统中的车辆控制、疫情网络中的防控策略以及电力系统中的电压控制。每个实验场景都具有高度的现实性和复杂性，旨在模拟实际应用中的挑战。

在车辆控制实验中，研究团队选择了合作自适应巡航控制（CACC）和连接自主车辆控制（Flow）作为评估场景。通过控制车辆的速度和车距，评估所提出方法在交通流量管理中的效果。

在疫情网络控制实验中，研究团队模拟了一个大规模的疫情传播场景，通过调整不同社会单位的控制策略，评估所提出方法在控制重症病例和死亡病例方面的表现。

在电力控制实验中，研究团队选择了IEEE电力网和实际电力系统作为评估场景，通过控制电压和功率损耗，评估所提出方法在电力系统中的应用效果。

图4:CACC、Flow和流行病网络车辆控制评估结果。

评估场景和指标

在每个实验场景中，研究团队选择了多个关键指标来评估所提出方法的性能。这些指标包括：

车辆控制：车辆的速度、车距、交通流量的效率和安全性。疫情网络控制：重症病例和死亡病例的数量、医院的最大容量、区域经济发展。电力控制：电压控制的可靠性、功率损耗、系统的适应性和稳定性。

结果分析

在CACC和Flow任务中，所提出的方法能够稳定控制车辆的速度和车距，确保交通流量的效率和安全性。具体来说，车辆的速度和车距能够稳定在目标值附近，避免了交通拥堵和事故的发生。此外，所提出的方法在交通流量管理中表现出色，显著提高了交通流量的效率。

图 5：ATSC 对大规模交通管制的评估结果。

在疫情网络控制实验中，所提出的方法能够有效控制重症病例和死亡病例的数量，使其低于医院的最大容量，减轻了医护人员的压力。具体来说，所提出的方法在多个场景中保持较低的死亡率，同时尽可能平衡区域经济发展。这表明，所提出的方法在疫情防控中具有显著的优势，能够在保证公共健康的同时，促进经济的可持续发展。

在电力控制实验中，所提出的方法能够在减少通信成本的同时，保持可靠的控制性能和对随机干扰的适应性。具体来说，所提出的方法在大规模电力网场景中展示了较高的安全控制率和较低的功率损耗，证明了其在随机干扰下的适应性和可扩展性。此外，所提出的方法在电压控制方面表现出色，能够在不同负载条件下保持电压的稳定性。

性能对比

在与现有方法的比较中，所提出的方法在多个评估指标上表现出色。具体来说，所提出的方法在车辆控制、疫情网络控制和电力控制实验中，均显著优于现有的基准方法。这表明，所提出的方法在大规模网络控制中的性能和可扩展性方面具有显著优势。

在样本效率和通信成本方面，所提出的方法也表现出色。具体来说，所提出的方法通过局部观察和全局动态的拓扑解耦，显著减少了通信成本，提高了样本效率。这不仅降低了系统的能耗，还提高了系统的实时性和可靠性。

图6：电网和真实电力网大规模电力控制的评估结果。

论文通过一系列实验验证了所提出方法在大规模网络控制中的有效性和可扩展性。通过这些实验结果，研究团队证明了所提出的方法在多个实际应用场景中的潜力，为未来的研究和应用提供了重要的参考。

讨论

在论文中，研究团队提出了一种基于模型的去中心化策略优化框架，用于解决大规模网络控制中的高效可扩展强化学习问题。通过实验验证和理论分析，论文的方法展示了显著的优势和潜力。

方法的优势

论文提出的方法在多个实验场景中展示了高性能和低通信成本的显著优势。通过局部观察和全局动态的拓扑解耦，智能体能够在仅依赖邻居信息的情况下，准确估计全局状态。这种去中心化机制不仅减少了通信成本，还提高了系统的可扩展性。

具体来说，在车辆控制实验中，所提出的方法能够稳定控制车辆的速度和车距，确保交通流量的效率和安全性。在疫情网络控制实验中，所提出的方法能够有效控制重症病例和死亡病例的数量，使其低于医院的最大容量，减轻了医护人员的压力。在电力控制实验中，所提出的方法能够在减少通信成本的同时，保持可靠的控制性能和对随机干扰的适应性。

高样本效率是论文方法的另一大优势。通过引入分支回滚方法，智能体能够在有限的采样数据下，强化最优策略，实现单调改进。分支回滚方法通过从之前策略的状态分布中采样状态，并运行固定步数的回滚，结合模型驱动和无模型回滚的优势，减少了模型误差，提高了策略优化的效果。

在实验中，所提出的方法在多个评估指标上均显著优于现有的基准方法，展示了其在样本效率方面的优势。这不仅降低了系统的能耗，还提高了系统的实时性和可靠性。

未来研究方向

尽管论文的方法在多个方面展示了显著的优势，但仍有一些值得进一步研究和探索的方向。

系统拓扑的优化是未来研究的一个重要方向。通过优化智能体之间的通信拓扑结构，可以进一步减少通信成本，提高系统的可扩展性和鲁棒性。未来的研究可以探索不同的拓扑结构对系统性能的影响，并设计出最优的通信拓扑结构，以实现更高效的决策过程。

模块扩展也是未来研究的一个重要方向。通过引入视觉和自然语言处理模块，可以进一步提高系统的智能水平和适应性。例如，在自动驾驶领域，结合视觉模块可以实现更准确的环境感知和决策；在智能家居领域，结合自然语言处理模块可以实现更自然的人机交互和控制。

总之，研究团队提出的基于模型的去中心化策略优化框架，通过局部观察和全局动态的拓扑解耦，实现了高效可扩展的强化学习。未来的研究可以在系统拓扑的优化和模块扩展方面进行深入探索，以进一步提高系统的性能和智能水平。通过这些研究，研究团队希望为大规模AI系统的可扩展性和高效性提供新的解决方案，并推动该领域的进一步发展。（END）

参考资料：https://www.nature.com/articles/s42256-024-00879-7

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

多智能体系统中的高效决策与去中心化强化学习的应用

独角也有噬元兽