多模态多智能体心智理论推动AI理解复杂社会互动的前沿基准

在复杂的现实世界中，人类的社会互动往往依赖于复杂的心理推理，即推断导致这些互动的潜在心理状态。这种能力被称为“心智理论”（Theory of Mind, ToM），它使我们能够理解和预测他人的行为和意图。对于人工智能系统来说，具备这种能力尤为重要，特别是在需要与人类进行安全和有效互动的场景中。

近日，来自美国两所著名大学的华人团队推出第一个多模态、多智能体的心智理论基准MuMA-ToM（Multi-modal Multi-Agent Theory of Mind），旨在评估AI系统在多模态信息下进行心理推理的能力。该基准通过提供现实家庭环境中人类行为的视频和文本描述，提出关于人们目标、信念及其对他人目标信念的问题。这一创新不仅填补了现有心理理论基准的空白，还为AI系统在复杂社会互动中的应用提供了重要工具和方法。

MuMA-ToM的研究团队主要来自两所著名的美国大学：约翰斯·霍普金斯大学（Johns Hopkins University）和弗吉尼亚大学（University of Virginia）。约翰斯·霍普金斯大学的研究人员有Haojun Shi, Suyu Ye, Xinyu Fang, Chuanyang Jin, Layla Isik, Tianmin Shu，约翰斯·霍普金斯大学成立于1876年，是美国第一所研究型大学，以其在医学、公共卫生、生物学、统计学和国际关系等领域的卓越研究而闻名。该大学位于马里兰州巴尔的摩，拥有多个校区和国际中心，包括在意大利博洛尼亚和中国南京的校区。约翰斯·霍普金斯大学的科研经费连续31年位居全美第一，展示了其在科研领域的领导地位。弗吉尼亚大学的研究人员有Yen-Ling Kuo，弗吉尼亚大学成立于1819年，由托马斯·杰斐逊创立，是一所公立研究型大学。该大学位于弗吉尼亚州夏洛茨维尔，校园包括八所本科和三所专业学校，并以其历史悠久的学术村和联合国教科文组织世界遗产地位而闻名。弗吉尼亚大学以其严格的录取标准和丰富的学术传统著称，其学者在经济学、法律、文学艺术、视觉艺术和科学等领域做出了重要贡献。

通过MuMA-ToM的开发和验证，这些研究人员展示了他们在多模态、多智能体心理推理领域的创新和贡献，为AI系统在复杂社会互动中的应用提供了新的可能性。

复杂现实场景中的社会互动与心理推理

在现实世界中，人类的社会互动往往涉及复杂的心理推理。我们不仅需要识别他人的行为，还需要理解这些行为背后的动机和意图。这种能力被称为“心智理论”（Theory of Mind, ToM），它使我们能够推断他人的心理状态，如信念、目标和意图。例如，当我们看到某人将书放在桌子上，我们可能会推测他们是为了方便自己或他人使用。这种推理能力在日常生活中至关重要，因为它帮助我们理解和预测他人的行为，从而更有效地进行社交互动。

随着人工智能技术的快速发展，AI系统在各种现实环境中得到了广泛应用，如智能助手、社交机器人和自动驾驶汽车等。这些系统需要与人类进行自然和有效的互动，因此理解人类的心理状态变得尤为重要。如果AI系统能够准确推断人类的信念、目标和意图，它们就能更好地适应和响应人类的需求，从而提高互动的质量和安全性。例如，在家庭环境中，智能助手需要理解家庭成员的意图，以便提供更个性化的服务；在自动驾驶场景中，车辆需要预测行人和其他驾驶员的行为，以避免事故。

尽管在心理理论推理方面已经取得了一些进展，但现有的基准仍存在一些局限性。首先，大多数心理理论基准仅关注单个代理的心理状态，而忽略了多代理互动中的复杂性。在现实世界中，人类的社交互动通常涉及多个个体，每个个体都有自己的信念和目标，并且这些信念和目标会相互影响。其次，现有的基准大多仅使用单一模态的信息，如文本或视频，而没有充分利用多模态信息。在实际应用中，人类的行为和意图往往通过多种模态（如视觉、听觉和语言）传达，因此AI系统需要能够整合和理解这些多模态信息。

MuMA-ToM基准的提出正是为了应对这些挑战。它不仅评估AI系统在多代理互动中的心理推理能力，还结合了视频和文本等多模态信息，从而提供了更全面和现实的测试环境。这一创新为AI系统在复杂社会互动中的应用提供了重要的工具和方法，有助于推动心理理论推理研究的进一步发展。

MuMA-ToM基准

MuMA-ToM（Multi-modal Multi-Agent Theory of Mind）是一个创新的基准，旨在评估AI系统在多模态、多智能体互动中进行心理推理的能力。该基准由约翰斯·霍普金斯大学和弗吉尼亚大学的研究人员开发，旨在帮助AI系统更好地理解复杂的社会互动。MuMA-ToM的目标是通过提供多模态信息（如视频和文本），测试AI系统对人类心理状态的推断能力，包括信念、目标和对他人目标的信念。

MuMA-ToM基准中的数据集包括人们在现实家庭环境中的多模态行为的视频和文本描述。这些描述不仅展示了人们的动作，还包括他们之间的对话和互动。例如，一个视频片段可能展示了一个人在厨房里拿起胡萝卜并放到桌子上，而相应的文本描述则可能包括他们之间的对话内容。这种多模态信息的结合，使得AI系统能够更全面地理解和推断人类的心理状态。

图1：每种问题类型的示例问题。我们在每个示例中为视频提供关键帧。聊天气泡中的对话以字幕的形式提供，并在观看视频时作为多模式输入的一部分显示。请注意，帧底部的字幕仅用于说明目的，不会在视频中显示。复选标记表示正确答案。我们提供补充材料中示例的视频和文本。

MuMA-ToM基准中的问题设计旨在评估AI系统在不同心理推理任务中的表现。具体来说，问题分为三类：信念推理、社会目标推理和对他人目标的信念推理。

信念推理

这些问题旨在推断一个人对物理状态的信念。问题通常会提供一个场景，并要求AI系统根据提供的信息推断某人的信念。例如，如果一个人问另一个人啤酒在哪里，而对方回答在咖啡桌上，AI系统需要推断回答者是否真的相信啤酒在咖啡桌上。

社会目标推理

这些问题旨在推断一个人的社会目标，可能是帮助、阻碍或独立行动。例如，如果Jessica误导Kevin去找一个没有杂志的柜子，假设Jessica知道真实情况，AI系统需要推断她试图阻碍Kevin。问题设计要求AI系统关注对话内容、行为和结果，以推断社会目标。

对他人目标的信念推理：

这些问题旨在推断一个人对另一个人目标的信念。例如，如果Sarah将书移到咖啡桌上，而David之前将书放在桌子上，AI系统需要推断Sarah是否知道David的真实意图，并推断她是否认为David希望书放在咖啡桌上。问题设计通过提供假设的社会目标，帮助AI系统推断信念。

通过这些多样化的问题类型，MuMA-ToM基准能够全面评估AI系统在多模态、多智能体互动中的心理推理能力。这一基准的提出，为AI系统在复杂社会互动中的应用提供了重要的测试工具和方法，有助于推动心理理论推理研究的进一步发展。

验证与模型

为了验证MuMA-ToM基准的有效性，研究团队进行了人类实验。实验招募了18名参与者（平均年龄36岁，其中10名女性），每位参与者需要回答从基准中随机抽取的90个问题。每个问题由3名参与者回答，实验获得了机构审查委员会的批准。

实验结果显示，人类参与者在所有问题上几乎达到了完美的准确性，平均正确率为93.5%。其中，98.9%的正确答案达到了多数一致。这表明人类在多模态、多智能体互动中的心理推理能力非常强。然而，在社会目标推理（94.4%）和对他人目标的信念推理（87.1%）方面，参与者的表现略低，表明这些问题更具挑战性，需要更高的关注度。

为了应对现有模型在多模态、多智能体心理推理中的不足，研究团队提出了一种新的模型——LIMP（基于语言模型的逆多代理规划）。LIMP模型在多模态信息融合、假设解析和逆多代理规划方面具有显著的创新点。

LIMP模型使用视觉语言模型（VLM）和大型语言模型（LLM）来提取和融合多模态信息。具体来说，VLM用于提取视频中每个人的动作和话语，而LLM用于从文本中提取这些信息。然后，LIMP模型将提取的信息融合，形成初始状态和完整的动作、话语序列。

图2:LIMP概述。LIMP有三个组成部分：（1）多模态信息融合模块从视觉和文本中提取和融合信息；（2）假设解析模块为给定问题和融合信息的三个心理变量生成假设值；以及（3）逆多智能体规划模块在给定假设的心理变量和融合信息中描述的多模式智能体行为的情况下评估每个选项的概率。

与现有的多模态心理理论问答基准不同，MuMA-ToM基准不提供完整状态的文本描述，而是通过LLM推断与活动相关的初始状态部分。这种方法简化了上下文，提高了推理的准确性。此外，当视觉感知结果中存在信息缺失时，LIMP模型可以利用文本输入的上下文信息填补这些缺失，从而提高推理的准确性。

图3:LIMP中多模态信息融合的示意图。它根据上下文填充缺失的信息，并从代理的操作中恢复初始状态。

LIMP模型通过解析相关的心理变量假设，包括状态信念、社会目标和对他人目标的信念，来回答关于一个人心理状态的问题。具体来说，LIMP模型使用GPT-4o生成每个选项的合理假设。这些假设包括信念状态、社会目标和对他人目标的信念。

基于多模态输入和解析的假设，LIMP模型通过贝叶斯推理评估心理状态的可能性。LIMP模型使用GPT-4o估计动作和话语的策略，避免显式的信念推理。这种方法不仅提高了推理的准确性，还避免了领域特定规划的复杂性和低效性。

图4：逆向多智能体规划示意图。在给定两个主体从步骤0到步骤t-1的过去行为和话语的情况下，我们估计了主体i在每个步骤t的行为和话语可能性，初始状态为 s0，图中的假设H.LL代表可能性。

实验结果显示，LIMP模型在MuMA-ToM基准上的表现显著优于所有现有模型，总体准确率为76.6%。这表明LIMP模型在多模态、多智能体心理推理方面具有很大的潜力，能够显著提高AI系统在复杂社会互动中的表现。

通过这些创新，LIMP模型为多模态、多智能体心理推理提供了一个强大的工具，有助于推动这一领域的进一步发展。

相关工作

心理理论（Theory of Mind, ToM）基准主要分为单代理和多代理两类。单代理心理理论基准测试了个体的信念、目标、偏好、约束和理性等概念。例如，Gordon（2016）、Gandhi等人（2021）、Shu等人（2021）、Kosinski（2023）和Jin等人（2024）都进行了相关研究。这些基准通常关注个体的心理状态，而忽略了多代理互动中的复杂性。

多代理心理理论基准通常基于经典的Sally-Anne测试，用于测试错误信念和高阶信念。例如，Baron-Cohen、Leslie和Frith（1985）提出的Sally-Anne测试，以及Le、Boureau和Nickel（2019）、He等人（2023）、Xu等人（2024）和Soubki等人（2024）的研究，都探讨了多代理互动中的心理推理。此外，还有一些多代理基准关注单个代理在复杂对话或互动中的信念和意图，但不涉及代理之间的关系（如Kim等人（2023）、Chen等人（2024a）、Chan等人（2024）和Sabour等人（2024））。这些基准通常使用简单的动画，缺乏真实的人类互动场景。

随着大型语言模型（LLMs）的进展，开发多模态问答基准的兴趣逐渐增加。大多数多模态基准关注模型融合多种模态信息的能力，答案可以直接检索，无需复杂推理。例如，Li等人（2023b）、Sanders等人（2023）、Li等人（2023a）、Ying等人（2024a）、Tang等人（2024）和Pandya等人（2024）都进行了相关研究。

最近的Perception Test评估了物理推理，如预测世界状态和解释反事实，但与心理理论推理不同。生成多模态数据集的管道如SEED-story（Yang等人（2024））和TaskMeAnything（Zhang等人（2024））也不评估心理理论推理。MMToM-QA（Jin等人（2024））是一个最近的多模态心理理论基准，评估单代理行为的多模态心理理论推理，而MuMA-ToM则包括多代理互动，评估模型在多模态社会互动中的心理状态推理能力。

传统的心理理论推理方法分为两类：端到端训练和贝叶斯逆规划。端到端训练方法（如Rabinowitz等人（2018）和Han和Gmytrasiewicz（2019））通过直接训练模型进行心理推理。贝叶斯逆规划方法（如Baker等人（2017）、Zhi-Xuan等人（2020）和Stacy等人（2024））则通过贝叶斯推理进行心理状态的推断。

最近的研究结合了这两种方法，用于视觉领域的高效和稳健的心理理论推理（如Jha等人（2024）和Puig等人（2023））。大型语言模型展示了一些心理理论推理能力（如Kosinski（2023）和Bubeck等人（2023）），但仍然脆弱。使用提示工程增强LLMs在文本问答中的心理理论能力的方法也被提出（如Wilf等人（2023）和Sclar等人（2023b））。

Jin等人（2024）提出的BIP-ALM模型结合了符号表示和贝叶斯逆规划进行多模态心理理论推理，但缺乏多代理推理能力。LIMP模型在BIP-ALM的基础上引入了多代理规划和通用的领域不变表示，显著提高了多模态、多智能体心理推理的性能。

这些相关工作为MuMA-ToM的开发提供了背景和基础，展示了其在多模态、多代理心理理论推理中的创新和贡献。MuMA-ToM不仅填补了现有基准的空白，还为AI系统在复杂社会互动中的应用提供了重要的工具和方法。

实验结果

人类参与者的表现

在MuMA-ToM基准的验证实验中，研究团队招募了18名参与者（平均年龄36岁，其中10名女性），每位参与者需要回答从基准中随机抽取的90个问题。每个问题由3名参与者回答，实验获得了机构审查委员会的批准。

图5:MuMA-ToM上的人体和模型性能。

表1：不同问题类型以及所有问题的人类和模型表现。

各种LMM基线模型的表现

研究团队评估了多种最先进的大型多模态模型（LMMs）在MuMA-ToM基准上的表现。这些模型包括GPT-4o、Llava 1.6、Gemini 1.5、InternVL2和VideoLlama 2。对于能够处理视频输入的模型，提供了整个视频；对于无法处理视频输入的模型，每20帧从视频片段中均匀采样一帧作为输入。

实验结果显示，所有LMM基线模型在MuMA-ToM上的表现较差，最佳模型Gemini 1.5 Pro的总体准确率为56.4%。在三种问题类型中，信念推理对LMMs来说是最容易的，特别是Llava 34B在信念推理中达到了最高的准确率。然而，所有LMMs在更具挑战性的社会目标推理和对他人目标的信念推理问题上表现不佳，这些问题在之前的心理理论基准中未被评估。BIP-ALM模型的准确率为33.9%，表明其在理解多代理互动方面存在显著不足，因为BIP-ALM仅依赖于单代理的目标和信念进行逆规划，而不考虑社会目标和对他人目标的信念。此外，BIP-ALM依赖于某些符号表示，这也限制了其通用性。

LIMP模型的表现及其优越性

LIMP模型在MuMA-ToM基准上的表现显著优于所有现有模型，总体准确率为76.6%。LIMP模型通过以下创新点克服了LMMs的两个主要弱点。

多模态行为生成能力：LIMP利用LLMs生成多模态行为，估计动作和话语的可能性，从而识别代理的真实心理状态。例如，LIMP模型能够生成基于代理信念和社会目标的谎言，这种多模态行为生成能力使其能够更准确地推断心理状态。上下文信息填补：当VLM无法识别代理互动的具体物体时，LIMP利用文本输入的上下文信息填补缺失信息，提高推理准确性。实验结果显示，这种方法将推断动作的准确性从54.4%提高到86.6%。

LIMP模型通过结合逆多代理规划和语言模型，显著提高了多模态、多智能体心理推理的性能。这一创新为AI系统在复杂社会互动中的应用提供了强大的工具，有助于推动心理理论推理研究的进一步发展。尽管LIMP模型在MuMA-ToM基准上的表现已经非常出色，但与人类表现仍有一定差距，表明这一领域仍有进一步研究的空间。

讨论

大型多模态模型（LMMs）在MuMA-ToM基准上的表现不佳，主要有两个原因。

LMMs在复杂的社会情境中难以区分故意阻碍和因错误信念导致的帮助失败。大多数模型能够解决假设帮助为社会目标的信念推理任务，但在假设阻碍为社会目标的场景中表现不佳。例如，当问题涉及“如果Mary试图阻碍Jack，她最不可能相信……”时，除了Llava 1.6 34B（87.2%）和Gemini 1.5 Pro（62.2%）外，所有模型的表现都在随机猜测水平或以下，Intern-VL 2 26B（18.6%）的表现甚至远低于随机猜测。这表明LMMs在理解对抗性行为方面存在显著不足。

LMMs常常无法正确解释视觉输入，特别是当物体太小或被遮挡时，导致对代理行为的错误结论。例如，当一个人拿起一个物体时，如果该物体被遮挡，LMMs可能无法正确识别该物体，而人类则可以利用上下文线索推断出该物体可能是什么。这些在识别关键动作上的错误可能显著影响LMMs在基准上的整体表现。

LIMP模型克服了LMMs在多模态行为理解和视觉输入解释上的两个主要弱点。

LIMP利用LLMs生成多模态行为，估计动作和话语的可能性，从而识别代理的真实心理状态。例如，LIMP模型能够生成基于代理信念和社会目标的谎言，这种多模态行为生成能力使其能够更准确地推断心理状态。相比之下，直接进行心理理论推理对LLMs来说更困难。

当VLM无法识别代理互动的具体物体时，LIMP利用文本输入的上下文信息填补缺失信息，提高推理准确性。实验结果显示，这种方法将推断动作的准确性从54.4%提高到86.6%。这种能力使LIMP能够在更准确的信息基础上进行推理。

LIMP模型通过使用自然语言表示所有信息，能够直接使用任何预训练的LLMs和VLMs，无需领域特定知识或微调。这使得LIMP在不同领域和应用场景中具有很强的通用性。LIMP利用强大的预训练VLMs以开放式方式识别RGB视频中的动作，并利用LLM从文本中提取上下文线索，填补视觉感知中的缺失信息。

VLM可能会产生显著错误，例如误认为代理从冰箱中拿出了物体。这种幻觉在动作识别中无法通过文本上下文纠正，导致LIMP对代理行为的错误解释。

LIMP通过提示LLM隐式推理代理的信念，这在较长事件中可能成本较高。此外，LIMP不进行超过两层的递归推理，这限制了其在更复杂互动中的应用。

未来的研究可以扩展MuMA-ToM基准，涵盖更多复杂的现实场景和多代理互动，包括公共场所、工作环境等。创建一个包含现实视频的测试集，用于评估AI系统在真实世界场景中的心理理论推理能力。改进LIMP模型，使其能够进行超过两层的递归推理，以应对更复杂的社会互动。通过这些改进，MuMA-ToM基准和LIMP模型将能够更好地评估和提升AI系统在复杂社会互动中的心理推理能力，推动这一领域的进一步发展。（END）

参考资料：https://arxiv.org/pdf/2408.12574

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

多模态多智能体心智理论推动AI理解复杂社会互动的前沿基准

独角也有噬元兽