智能体协作进化论，从心智理论到逆向注意力

让智能体在不断变化的环境中动态适应、并有效合作是一个巨大的挑战，特别是当智能体需要与陌生的智能体互动时，传统训练方法往往表现不佳。这种情况下，引入逆向注意力智能体（Inverse Attention Agents）成为了一种创新且有效的解决方案。

逆向注意力智能体的核心在于借鉴“心智理论”（Theory of Mind, ToM），通过注意力机制来推断其他智能体的目标和行为，并据此调整自己的行动。这种方法不仅能够提升智能体在合作任务中的表现，还能在竞争和混合环境中表现出色。这一创新性的策略为多智能体系统的自发合作提供了新的思路，显著改善了智能体在面对未见过的智能体时的适应能力。

提出逆向注意力智能体理论的是来自加州大学洛杉矶分校的团队，他们研究目的在于设计和验证一种能够在多变环境中动态适应的新型智能体训练方法——逆向注意力智能体。通过在多种环境中进行实验，研究团队展示了这种方法在提升智能体协作性能方面的显著效果。逆向注意力智能体的创新点在于其对注意力权重的推断和更新机制，这一机制使得智能体能够基于对其他智能体注意力状态的推断，调整自身的行动，从而实现更为灵活和高效的合作。他们的论文《Inverse Attention Agent for Multi-Agent System》 10 月 30 日发表于arXiv。

这个研究团队由来自加州大学洛杉矶分校（UCLA）的五位学者组成，分别来自计算机科学系、统计与数据科学系以及传播学系。团队成员包括：Qian Long、Ruoyan Li、

Minglu Zhao、Tao Gao、Demetri Terzopoulos。他们结合了计算机科学、数据科学和传播学的专业知识，共同探索多智能体系统中的逆向注意力智能体，为该领域的研究提供了新的视角和方法。

相关工作

在多智能体系统（MAS）的发展历程中，研究者们不断探索如何提高智能体在复杂环境中的协作和适应能力。心智理论（Theory of Mind, ToM）作为人类理解他人心理状态的能力，其概念引入MAS，为实现智能体之间的高效合作提供了新的路径。ToM研究的一个核心目标是让智能体能够推测和理解其他智能体的内部状态，从而制定更为有效的协作策略。在这一领域，注意力机制的引入为改进智能体的决策和协作能力提供了重要工具。

心智理论最早由心理学家提出，旨在解释人类如何理解和预测他人的心理状态。它包括对信念、欲望、意图等心理状态的推断能力。在多智能体系统中，ToM被用来设计能够模拟人类推理和决策过程的智能体，以实现更自然的协作。早期的ToM研究主要采用贝叶斯方法，通过观测其他智能体的行为来推断其心理状态。这种方法提供了一个系统化的推理框架，但由于计算复杂度高，在大规模多智能体系统中应用存在一定困难。

近年来，随着神经网络和深度学习的兴起，研究者们开始探索将ToM直接整合到神经网络架构中的可能性。通过数据驱动的方法，智能体可以在互动中学习和表示其他智能体的心理状态。特别是自注意力机制的发展，为智能体的状态推断和行为调整提供了新的手段。自注意力机制允许智能体根据观察到的信息分配不同的权重，从而在决策过程中突出最重要的信息。这种方法不仅提高了推理的准确性，还增强了智能体在动态环境中的适应能力。

在此基础上，逆向注意力智能体（Inverse Attention Agents）应运而生。该方法通过逆向推断其他智能体的注意力状态，并根据这些推断结果调整自身的行为。逆向注意力智能体的创新在于其能够推测其他智能体的目标和行为，并实时调整自己的行动策略，从而在各种复杂环境中表现出色。

即席团队合作（Ad-Hoc Teaming）是多智能体系统中一个具有挑战性的研究课题。即席合作要求智能体能够在没有预先协调和策略一致性的情况下，与陌生队友进行高效合作。这种情境在现实世界中非常常见，例如灾难救援、无人机编队以及多智能体机器人系统中。然而，实现即席合作需要智能体具备快速适应和协调的能力，这对传统的训练方法提出了巨大挑战。

现有的即席团队合作方法主要集中在以下几个方面。

基于类型的推理：将队友表示为假设的行为类型，通过推断队友属于哪种类型来选择合适的行动策略。这种方法在一定程度上解决了陌生队友之间的协作问题，但其推理过程复杂，且依赖于预先设定的类型分类。

基于神经网络的推理：通过神经网络从观察数据中学习队友的行为类型。这种方法具有较好的泛化能力，但其训练过程需要大量数据支持，且在应对动态变化时可能表现不稳定。

共享代理框架：依赖于组级心理状态的协调，在智能体之间建立对任务和目标的共同理解。这种方法可以有效减少推理的复杂性，但其灵活性和适应性较差，难以应对多样化和动态变化的环境。

逆向注意力智能体的出现，为解决即席团队合作中的挑战提供了新的思路。通过逆向推断和调整注意力权重，逆向注意力智能体能够更好地理解队友的目标和行为，并根据推断结果实时调整自己的行动策略。这种方法不仅提高了智能体的协作能力，还增强了其在动态环境中的适应性。

马尔可夫博弈及梯度场表示

在讨论逆向注意力智能体的具体方法之前，首先需要了解一些基础概念，即多智能体马尔可夫决策过程（MDP）和梯度场（GF）表示。

图1：训练反向注意力代理的管道：第一阶段涉及应用自我注意力机制，其中代理为其观察值分配注意力权重，并根据这些权重采取行动。在第二阶段，智能体使用逆注意力网络对同类型的其他智能体进行注意力推理。通过将自己置于这些智能体的位置，它推断出它们的注意力权重，从而了解它们的目标和行为。在最后阶段，反向注意力代理使用从上一步推断出的信息将其原始注意力权重{w1，w2，…，wn}更新为{w^1，w^2，……，w^n}，从而导致其最终动作的变化。

多智能体马尔可夫决策过程（MDP）是一种框架，用于建模多个智能体在环境中的交互过程。MDP通常由以下几个要素组成：

状态集S：表示环境的所有可能状态。动作集Ai：每个智能体i的所有可能动作。状态转移函数T：描述了在每个状态下，各智能体选择不同动作后，环境状态的变化情况，记为T: S × A1 × · · · × AN → Δ(S)。奖励函数Ri：每个智能体i根据当前状态和所有智能体的动作获得的奖励，记为Ri: S × A1 × · · · × AN → R。策略πi：智能体i在每个状态下选择动作的概率分布，旨在最大化其期望的累计折扣奖励，记为E[∑γ^t Ri(st, a1,t, ..., aN,t)]。

在多智能体强化学习（MARL）的背景下，智能体通过与环境和其他智能体的互动，不断学习优化其策略πi，以便在复杂环境中实现最佳的长期收益。

梯度场（GF）表示是一种在多智能体系统中用于增强智能体环境感知和决策能力的高级表示方法。相比于直接使用环境的原始观察，GF能够提供更高层次的信息，帮助智能体更好地理解环境并做出更明智的决策。

具体来说，GF通过学习环境中数据的对数密度梯度场，即得分函数，来构建更具代表性的环境表示。这一过程利用去噪得分匹配（DSM）生成模型，通过多个不同噪声级别的数据来训练得分网络，使其能够近似环境中数据的真实得分函数。GF表示可以看作智能体在特定环境中的目标，与相对坐标等原始观察相比，GF能够更直接地表示与智能体目标一致的未来趋势，从而提高智能体的决策效率和准确性。

理解了MDP和GF的基础知识后，我们可以更深入地探讨逆向注意力智能体的方法。逆向注意力智能体通过引入自注意力机制和逆向注意力推理网络，实现对其他智能体的注意力状态的推断和自身行为的调整。

首先，智能体通过自注意力机制为观察到的信息赋予不同的权重，从而在决策过程中突出最重要的信息。在训练过程中，智能体会收集这些权重数据，形成训练数据集。然后使用这些数据训练逆向注意力推理网络，使其能够根据观察到的其他智能体的行为和目标，推断其注意力权重。

一旦逆向注意力网络完成训练，智能体就可以将其应用于实时环境中，通过推断其他智能体的注意力状态，调整自己的行动策略。这种方法不仅提高了智能体的协作能力，还增强了其在动态环境中的适应性。

为了验证逆向注意力智能体的有效性，研究团队在多个复杂环境中进行了实验。实验结果表明，逆向注意力智能体在多种任务中表现优越，包括合作、竞争以及混合任务。通过与传统方法的比较，逆向注意力智能体在适应性和协作效率方面表现出显著的优势。

特别是在即席团队合作的场景中，逆向注意力智能体能够快速适应新队友和新环境，实现高效合作。这一结果表明，通过逆向推断和调整注意力状态，智能体能够更好地理解和响应其他智能体的行为，从而在多智能体系统中取得更佳表现。问题定义

在多智能体系统（MAS）中，各个智能体在环境中自主行动，协调合作以实现共同目标。为了在复杂且动态的环境中有效运作，智能体需要制定去中心化的策略，这意味着每个智能体都能独立决策，而不依赖于中央控制系统。研究团队提出了一种创新的逆向注意力智能体（Inverse Attention Agents），旨在提升智能体在这些条件下的协作能力。

在完全可观察的多智能体环境中，每个智能体可以获取关于其他智能体的所有信息，包括其行动和状态。这种全知全能的环境设定为研究逆向注意力智能体提供了理想条件。在这样的环境中，智能体通过对其他智能体行为的观察，推断其内在状态，从而优化自己的决策过程。然而这也带来了新的挑战，需要智能体具备高度的灵活性和适应能力。

去中心化策略目标

去中心化策略的目标是让每个智能体独立地学习和执行决策，以实现整体系统的最优性能。在多智能体系统中，这一目标尤其重要，因为各个智能体常常需要在没有预先协调和统一指令的情况下进行合作。为了实现这一目标，智能体需要在以下几个方面进行优化：

自主决策：每个智能体都能够基于自身的观测和经验，独立制定最优策略。动态适应：智能体能够根据环境和其他智能体行为的变化，实时调整其策略。高效协作：智能体能够在没有中央控制的情况下，通过推断和预测其他智能体的行为，实现高效合作。

目标实现所需的条件和挑战

为了实现去中心化策略目标，逆向注意力智能体需要满足以下三个条件。

全面的环境感知能力：智能体需要能够全面感知环境中的信息，包括其他智能体的状态和行动。这要求智能体具备高效的感知和信息处理能力。准确的状态推断能力：智能体需要能够准确推断其他智能体的内在状态，包括其目标和意图。这需要智能体具备强大的推理和预测能力。灵活的策略调整能力：智能体需要能够根据推断结果，灵活调整自身的策略，以实现最优决策。这要求智能体具备快速学习和适应能力。

在实现这些条件的过程中，逆向注意力智能体面临以下几个主要挑战：

信息处理的复杂性：在完全可观察的环境中，智能体需要处理大量的信息，包括其他智能体的状态和行动。这要求智能体具备高效的信息处理和存储能力。

状态推断的准确性：智能体需要能够准确推断其他智能体的内在状态，这对于实现高效合作至关重要。然而，推断过程往往涉及复杂的计算和不确定性，可能导致推断结果的偏差。

策略调整的实时性：智能体需要能够根据环境变化和推断结果，实时调整其策略。这要求智能体具备快速响应和适应能力，以应对动态变化的环境。

通过引入逆向注意力机制，研究团队提出的方法在一定程度上克服了上述挑战。逆向注意力智能体通过对其他智能体行为的逆向推断，调整自身的注意力权重，从而优化决策过程。这种方法不仅提高了智能体的协作能力，还增强了其在动态环境中的适应性。

逆向注意力智能体的方法论

为了实现上述目标，研究团队采用了以下步骤来构建逆向注意力智能体。

通过自我注意机制，智能体能够为其观察到的信息分配不同的权重，从而在决策过程中突出最重要的信息。这个阶段还为训练逆向注意力网络准备了必要的数据。

在收集了足够的数据对之后，使用这些数据训练逆向注意力推理网络。该网络能够基于其他智能体的目标和行动，推断其注意力权重。

使用训练好的逆向注意力网络，智能体能够实时推断其他智能体的注意力状态，并根据推断结果调整自己的策略。

这种方法不仅实现了智能体间的高效协作，还显著提升了智能体在面对未知环境和未见过的智能体时的适应能力。实验结果表明，逆向注意力智能体在多种任务中表现优越，无论是合作任务、竞争任务还是混合任务，都表现出了强大的适应性和高效性。

方法介绍

在多智能体系统（MAS）中，各个智能体如何在动态复杂的环境中进行有效合作，是一个重要的研究课题。研究团队提出了一种创新的逆向注意力智能体（Inverse Attention Agents），通过引入自我注意机制和注意力推理网络，优化智能体的决策过程

自我注意机制的应用与数据准备

逆向注意力智能体首先利用自我注意机制来处理观察到的信息。自我注意机制允许智能体根据环境中的不同目标分配注意力权重，从而在决策过程中突出最重要的信息。这一机制的引入，使得智能体能够更灵活地应对环境变化，并在处理大量信息时保持高效。

图2：逆向注意力代理的网络架构。对于代理i，Wi是观察嵌入函数，它接收观察并输出初始注意力权重。IWi是一个逆向注意力网络，它接收其他智能体的动作和观察，并输出推断出的注意力权重。UWi考虑了自初始权重和从他人推断的权重，并更新了ai的注意力权重。hi函数根据更新的权重输出最终动作。

在具体应用中，智能体通过一个自我注意网络（Self-Attention Network）来处理其观测到的状态信息。该网络将观测到的状态进行嵌入（embedding），并通过注意力机制计算出各个目标的权重。然后，智能体根据这些权重来决定其下一步的行动。

在训练过程中，智能体会不断收集其注意力权重和对应的观察数据对（wi, oi），并将这些数据存储在一个训练数据集中（Dataset D）。这些数据为后续训练注意力推理网络提供了必要的基础。

注意力推理网络的训练和逆向注意力智能体的构建

有了自我注意机制收集的数据，下一步是训练注意力推理网络（Attention Inference Network）。该网络的目标是根据观察到的其他智能体的行为，推断其注意力状态。

具体而言，注意力推理网络通过以下步骤进行训练：

数据收集：从自我注意网络训练的过程中，收集注意力权重和观察数据对，并保存在数据集中。训练目标：利用收集的数据集，训练一个逆向注意力推理网络。该网络的输入是其他智能体的观察数据，输出是推断的注意力权重。损失函数：通过最小化预测权重和实际权重之间的误差，来优化推理网络的性能。

逆向注意力智能体通过逆向注意力推理网络，将其他智能体的注意力状态和自身状态结合起来，形成新的注意力权重。这些更新后的注意力权重，使智能体能够更好地适应环境变化，并在合作和竞争中做出更优决策。

逆向注意力智能体的整体架构与策略

逆向注意力智能体的整体架构由多个网络模块组成，每个模块在训练和决策过程中发挥特定的作用。

首先，智能体通过自我注意网络来处理其观测到的环境信息，计算并分配注意力权重。这些注意力权重用于决定智能体的初始行动策略。在训练过程中，智能体会不断收集这些权重和观察数据，形成训练数据集。

接下来，智能体利用这些数据，训练逆向注意力推理网络。该网络基于其他智能体的观察和行为，推断其注意力状态。推理网络的输出与智能体的原始注意力权重结合，形成新的注意力权重。

最后，智能体通过一个权重更新模型（Weight Updating Model），将推断的注意力权重和自身的原始权重结合，并通过一个全连接网络更新其最终注意力权重。基于这些更新后的权重，智能体能够在不同环境中实时调整其策略，做出更优的决策。

逆向注意力智能体的策略实现过程如下：

初始阶段：应用自我注意机制，对观测到的环境信息进行处理，并为各个目标分配初始注意力权重。

推理阶段：使用逆向注意力推理网络，基于其他智能体的行为和目标，推断其注意力状态。

更新阶段：将推断的注意力权重与自身的原始权重结合，通过权重更新模型，优化最终的注意力权重。

实验与结果

为了验证逆向注意力智能体的有效性，研究团队在多个复杂环境中进行了实验。这些环境包括完全合作游戏、完全竞争游戏以及混合游戏，每种环境都具有不同的挑战和特性。实验结果表明，逆向注意力智能体在这些环境中表现出色，无论是在合作、竞争还是混合任务中，都显著优于传统方法。

特别是在即席团队合作场景中，逆向注意力智能体能够快速适应新队友和新环境，实现高效合作。这一结果证明，通过逆向推断和调整注意力状态，智能体能够更好地理解和响应其他智能体的行为，从而在多智能体系统中取得更佳表现。

实验环境与基线方法的选择

图3：传播、对手和草原游戏的环境可视化。

本研究在多个实验环境中验证了逆向注意力智能体的性能，这些环境包括：

Spread：一个完全合作的游戏，智能体需要在多个地标间进行分布。Adversary：一个完全竞争的游戏，涉及“狼”和“羊”两种智能体类型，狼捕捉羊，而羊试图逃脱。Grassland：一个混合游戏，包含“羊”、捕捉它们的“狼”、以及可以收集的“草”。Navigation：一个需要智能体导航到不同地标的合作游戏。Tag：一个混合游戏，狼追逐羊并尽量避开障碍物。

为了进行比较，研究团队选择了几种基线方法：

MAPPO：多智能体近端策略优化算法（Multi-Agent Proximal Policy Optimization）。IPPO：个体近端策略优化算法（Individual Proximal Policy Optimization）。MAA2C：多智能体优势演员评论算法（Multi-Agent Advantage Actor-Critic）。ToM2C*：改编自 Wang 等人的心智理论方法。Self-Att：采用研究团队5.1节提到的自注意力结构。Inverse-Att：研究团队提出的逆向注意力智能体。

所有基线方法均经过相同量的训练，确保在评估期间不会接触到其他方法的智能体，以保证公平性。

量化结果分析与讨论

在量化分析中，研究团队对所有实验环境中的智能体进行了训练和评估。在Spread游戏中，各个方法的表现如表1所示：

MAPPO、IPPO、MAA2C在合作任务中的表现相对较差。

Self-Att 和 Inverse-Att 的表现显著优于其他方法，尤其是 Inverse-Att 在多个环境中展现了卓越的合作和竞争能力。

这一结果表明，逆向注意力智能体在多种任务中都能保持稳定且优越的表现，不仅适用于合作任务，也能在竞争和混合任务中展现出色的适应性。

不同规模下的逆向注意力智能体性能测试

为了进一步验证逆向注意力智能体的可扩展性，研究团队在不同规模的智能体环境中进行了测试。具体而言，在Spread、Adversary和Grassland游戏中，评估了2、3、4个智能体的情况。

结果显示，逆向注意力智能体在所有测试规模下均表现出色，特别是在合作相关的游戏中。这一发现证明了逆向注意力智能体不仅能适应多样化的环境，还能有效扩展到更大规模的多智能体系统中。

与人类参与者的合作实验结果

为了评估逆向注意力智能体在实际合作场景中的适应性，研究团队进行了人类实验。在Spread、Grassland和Adversary游戏中，五名参与者与智能体合作完成任务。实验结果表明，Self-Att 和 Inverse-Att智能体在多数环境中表现优于人类参与者，尤其是在适应性和稳定性方面。

图4：我们评估了在{传播：3，对抗：3−3和草原：3-3}的尺度下，反向注意力网络在传播、对手和草原环境中的五个角色的预测准确性。在每个条形图中，从左到右，我们显示了从参与人数最多的目标到参与人数最少的目标的预测精度。结果表明，逆网络可以准确地预测其他智能体的注意力，特别是对前两个感兴趣的注意力。

这表明，逆向注意力智能体不仅在模拟环境中表现出色，也能在实际合作场景中与人类有效互动，展示出强大的适应能力和协作潜力。

多个逆向注意力智能体的影响分析

研究团队还探讨了多个逆向注意力智能体同时存在时的影响。通过逐渐替换MAPPO智能体为逆向注意力智能体，实验发现，随着逆向注意力智能体数量的增加，团队总奖励呈现非线性递增模式。

这一发现强调了逆向注意力智能体在多智能体系统中的协作优势，证明了其能够与其他智能体高效合作，从而在复杂任务中取得更佳的表现。

逆向注意力网络的预测精度

为了验证逆向注意力网络的预测精度，研究团队收集了大量的权重观察数据对，作为注意力的基准。通过将这些数据输入逆向注意力网络，并比较预测结果与基准的差异，发现逆向注意力网络能够准确预测其他智能体的注意力状态，特别是在最重要的两个注意力目标上，预测精度接近100%。

这一结果证明了逆向注意力网络在推断其他智能体注意力状态方面的高效性和准确性，为智能体的实时决策提供了可靠支持。

未来工作

虽然研究团队的研究已经取得了显著成果，但未来仍有许多值得探索的方向。首先，目前的逆向注意力智能体主要针对同类型智能体的推理，未来可以进一步研究不同类型智能体之间的心智理论建模，以提升智能体在多样化环境中的适应性和协作能力。此外，研究团队还计划开发一种能够处理任意数量推断注意力权重的UW网络模型，从而增强智能体在复杂任务中的灵活性。

逆向注意力智能体的广泛影响主要体现在其在多智能体强化学习（MARL）中的应用潜力。通过推断和调整注意力状态，逆向注意力智能体能够在动态环境中实现更为高效的协作和决策。这一创新方法有望在多个实际应用场景中发挥作用，如机器人群体协作、智能交通管理、无人机编队等。

在智能社会的发展中，自主系统的智能化和协作能力至关重要。逆向注意力智能体通过引入心智理论和注意力机制，为自主系统的智能化提供了新的路径。随着这一领域研究的不断深入，未来有望看到更多智能体在实际应用中展现出强大的协作和适应能力，从而推动技术进步和社会发展。（END）

参考资料：https://arxiv.org/abs/2410.21794

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

智能体协作进化论，从心智理论到逆向注意力

独角也有噬元兽