我们距离可信的智能体（Agent）还有多远？

人类行为模拟是指让人工智能智能体（Agent）根据输入的角色信息，生成符合角色特征的行为，如语言、动作、情感等。人类行为模拟是人工智能领域的一个重要的研究方向，它可以应用于多种场景，如游戏、教育、娱乐、社交等。然而要让Agent真正地模拟人类行为，不仅需要高水平的自然语言处理、计算机视觉、机器学习等技术，还需要考虑Agent的可信度，即Agent是否能让人类用户相信它是真实的角色，而不是一个机器。

可信度是一个复杂而多维的概念，它涉及到Agent的一致性、鲁棒性、适应性、个性、情感等方面。一致性是指Agent是否能根据输入的角色信息，生成与角色信息一致的行为，而不是产生矛盾或不合理的回答。鲁棒性是Agent是否能在输入的角色信息发生变化时，保持一致性，而不是表现出波动或混乱。适应性是指Agent是否能根据不同的情境和用户，调整自己的行为，以适应不同的需求和期望。个性是Agent是否能展现出独特的风格和特点，以区别于其他的Agent或人类。情感是Agent是否能表达和理解人类的情感，以增加与用户的互动和信任。

目前，随着大型语言模型（LLM）的发展，如GPT-3.5和GPT-4等，Agent的人类行为模拟能力有了显著的提升，但是它们的可信度水平还有多高呢？有没有一个有效的方法来评估和优化Agent的可信度呢？为了回答这些问题，一篇最新的论文《How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation》提出了一个评估Agent可信度的框架，包括两个新颖的评估指标，即一致性和鲁棒性，以及一个用于测试这两个指标的基准测试集SimulateBench。论文的作者是Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li, Pengfei Liu六位AI领域的科学家。我们下面对这篇论文进行分析，探讨它的创新点和价值，以及它对人工智能领域的启示和影响。

人工智能智能体的人类行为模拟需要智能体具有可信度，这一点至关重要，因为它有助于用户建立对智能体的信任，并简化智能体目标的实现。虽然基于大型语言模型（LLM）的智能体的最新进展改进了人类行为模拟，但LLM固有的挑战（例如，长上下文建模）可能会破坏其可信度。因此，评估人工智能智能体的可信度变得势在必行。不幸的是，先前的研究往往忽略了LLM缺陷的负面影响。为了解决这些差距，他们引入了两个评估基于LLM的智能体可信度的指标：一致性和稳健性，以及一个基准SimulateBench，我们用它来评估使用流行LLM实现的智能体的一致性和鲁棒性。他们发现，智能体（i）当被呈现为长的简档输入时，难以准确地描述角色信息；（ii）表现出对剖面扰动的脆弱性，以及（iii）受到影响其总体可信度的某些关键因素的显著影响。

智能体可信度的评估框架SimulateBench

首先，该论文提出了两个新颖的评估指标，即一致性和鲁棒性，分别衡量Agent是否能准确地表达输入中的角色信息，以及是否能稳定地应对输入中的变化。这两个指标是可信度的重要组成部分，也是Agent人类行为模拟的核心挑战。一致性要求Agent能够理解和记忆输入的角色信息，如姓名、年龄、性别、职业、爱好、关系等，以及这些信息之间的逻辑和关联，然后根据这些信息生成符合角色特征的行为，如语言、动作、情感等。鲁棒性要求Agent能够在输入的角色信息发生变化时，保持一致性，而不是表现出波动或混乱。例如，如果输入的角色信息中的年龄或教育背景发生了变化，Agent应该能够相应地调整自己的行为，以适应新的角色信息，而不是继续使用旧的角色信息。

图1：“一致性”和“稳健性”的示例。一致性衡量LLM生成的人类行为是否准确地描述了身份信息；鲁棒性测量生成的人类行为是否会受到轮廓中的扰动的影响。

为了评估Agent的一致性和鲁棒性，作者构建了一个基准测试集SimulateBench，包含了不同的角色，情境，和输入，用于评估不同的LLM在模拟人类行为时的一致性和鲁棒性。SimulateBench的构建有以下几个步骤：

角色信息的描述框架：论文提出了一个全面的角色信息的描述框架，用于记录角色的不可变特征，社会角色，和关系等信息，以便Agent模拟人类行为。不可变特征是指不能轻易改变的特征，如姓名、性别、年龄等。社会角色是指一个人在社会中扮演的角色，如职业、家庭、兴趣等。关系是指一个人与其他人或事物的关系，如亲属、朋友、敌人、喜欢、讨厌等。

角色数据集：作者从流行的电视剧中选取了56个角色，如《辛普森一家》、《老友记》、《绝命毒师》、《权力的游戏》等，根据角色信息的描述框架，从粉丝网站中提取了角色的信息，并进行了人工校验，以确保信息的准确性。论文还收集了真实人物的信息，以增加数据集的多样性。为了保护隐私，论文模糊了一些敏感的信息，如姓名、年龄、地点等。

角色变体数据集：为了评估Agent的鲁棒性，论文对角色数据集中的角色信息进行了扰动，通过替换一些人口统计因素，如教育、姓氏、种族、年龄等，生成了不同的角色变体。为了防止扰动造成的不合理性，作者对扰动后的角色信息进行了仔细的检查，确保扰动不会影响角色的其他信息。例如，如果修改了霍默的教育背景，那么任何提到教育背景的信息也会相应地调整。

一致性数据集：一致性数据集由单选题组成，要求Agent根据输入的角色信息，回答与角色信息相关的问题。根据角色信息的描述框架，论文设计了三种类型的问题，分别涉及不可变特征、社会角色、和关系。对于每种类型的问题，论文又将问题分为两类，根据问题的答案，分别为已知和未知。已知的问题是指可以从角色信息中直接或间接得到答案的问题，未知的问题是指无法从角色信息中得到答案的问题，答案为“没有足够的信息来回答这个问题”。未知的问题的目的是测试Agent是否能识别信息的不足，而不是随意地猜测或编造答案。

鲁棒性数据集：鲁棒性数据集是基于一致性数据集的扩展，它要求Agent根据输入的角色变体信息，回答与角色信息相关的问题。鲁棒性数据集的目的是测试Agent是否能在输入的角色信息发生变化时，保持一致性，而不是表现出波动或混乱。例如，如果输入的角色信息中的年龄或教育背景发生了变化，Agent应该能够相应地调整自己的行为，以适应新的角色信息，而不是继续使用旧的角色信息。

表1：SimulateBench的统计数据。通过嵌入GPT-4对令牌进行计数。

作者使用SimulateBench对10个流行的LLM进行了可信度的评估，发现了它们在处理长输入，应对输入扰动，以及适应不同的情境方面存在不足，影响了它们的可信度。论文的主要发现有以下几点：

API模型比开源模型在一致性和鲁棒性上表现更好，即使它们都有足够的上下文大小。这说明API模型有更强的长文本处理能力，以及更好的泛化能力。

模型在面对不足的角色信息时，倾向于产生不合理的回答，而不是遵循角色信息，这称为模拟幻觉。这暴露了模型的语料偏见和推理能力的问题，以及缺乏对信息不足的识别和处理的能力。

不同的角色信息中的人口统计因素会导致不同的一致性表现，暴露了LLM的语料偏见和泛化能力的问题。例如，模型对于白人、1985年出生、姓氏为Bedonie、教育背景为本科的角色信息，表现出更高的一致性，而对于其他的人口统计因素，表现出较低的一致性。这可能是因为模型在训练过程中，接触到的语料中，这些人口统计因素的出现频率更高，而其他的人口统计因素的出现频率更低，导致模型对于这些人口统计因素有更强的偏好和倾向。

信息的位置会影响开源模型对长输入的处理能力，而API模型则不受影响。当将角色信息中的不可变特征放在最后时，开源模型的一致性表现有了显著的提升，而API模型的一致性表现则没有明显的变化。这说明开源模型对于长输入的处理能力受到信息的位置的影响，可能是因为开源模型在处理长输入时，会更多地关注输入的末尾部分，而忽略输入的前面部分。而API模型则有更强的长文本处理能力，能够平衡地处理输入的各个部分，而不受信息的位置的影响。

推理提示并不总是能提高人工智能智能体的可信度，而且不同的模型对不同的推理提示有不同的反应，说明推理提示的效果取决于模型的内部机制和外部输入。推理提示是指在输入中加入一些额外的信息，如例子、链式思考、自问自答等，来提示模型进行推理和解决问题。论文使用了三种推理提示，分别是链式思考（CoT）、自问自答（Self-Ask）、和少量的例子（Few）。论文发现，不同的模型对不同的推理提示有不同的反应，有些模型的可信度会提高，有些模型的可信度会降低，甚至有些模型会直接复制输入中的例子作为回答。这可能是因为不同的模型有不同的内部机制，如注意力机制、记忆机制、生成机制等，导致它们对于推理提示的理解和利用有所差异。另外，推理提示的效果也取决于外部输入的长度、复杂度、变化等，不同的输入会对模型的推理能力产生不同的影响。

基准测试集SimulateBench的创新点和价值

论文提出了一个评估Agent可信度的框架，包括两个新颖的评估指标，即一致性和鲁棒性，以及一个用于测试这两个指标的基准测试集SimulateBench。论文的框架不仅可以评估不同的LLM在模拟人类行为时的可信度水平，还可以分析影响可信度的一些关键因素，如输入长度，输入复杂度，输入变化等，为优化Agent的可信度提供了有用的参考和指导。

作者对10个流行的LLM进行了可信度的评估，发现了它们在处理长输入，应对输入扰动，以及适应不同的情境方面存在不足，影响了它们的可信度。论文的评估结果不仅揭示了LLM的一些优势和劣势，也展示了LLM的一些潜在的问题，如语料偏见、推理能力、信息处理能力等，为改进LLM的性能和功能提供了有价值的反馈和建议。

论文对人类行为模拟的可信度提出了一个新颖的研究问题，为人工智能领域的发展提供了一个新的视角和方向。论文的研究问题不仅具有理论意义，也具有实际意义，因为可信度是影响Agent与人类用户的互动和信任的重要因素，也是衡量Agent的质量和水平的重要标准。论文的研究问题也具有挑战性，因为可信度是一个复杂而多维的概念，涉及到Agent的一致性、鲁棒性、适应性、个性、情感等方面，需要综合考虑多种因素和技术，如自然语言处理、计算机视觉、机器学习、心理学、社会学等。

这是一个新颖的研究方向，对于评估和优化基于LLM的人工智能智能体的可信度有重要的意义。论文的研究结果和发现，为人工智能领域的发展提供了有益的启示和影响，也为后续的研究提供了有力的支持和参考。论文的研究方法和框架，也为其他相关的研究领域提供了一个可借鉴和可扩展的范例，如对话系统、智能教育、智能娱乐等。论文的研究问题和目标，也为人工智能的未来发展提出了一个有趣而有意义的挑战，即如何让Agent更加可信，更加接近人类，更加能够与人类沟通和合作。

参考资料：https://arxiv.org/abs/2312.17115

噬元兽（FlerkenS）是一个去中心化的个人AI数字价值容器，同时也是数字经济的新型资产捕捉器和转化器，用数据飞轮为用户提供无边界的数字化、智能化和资产化服务。

噬元兽(FlerkenS)构建AI市场、AI发布器和一个在通用人工智能（AGI）上建设可扩展的系统，AI-DSL让不同类型和领域的AI应用和服务可以相互协作和交互，通过RAG向量数据库（Personal Vector Database）+ Langchain技术方案（Langchain Technology Solution）+大模型的技术实现路径，让用户获得个性化的AI服务，在分布式的网络环境里与AI技术下的服务商实现点到点的连接，建设一个智能体和经济体结合的数智化整体。

波动世界（PoppleWorld)是噬元兽平台的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，采用Web3分布式技术建设一套采集用户情绪数据并通过TOKEN激励聚合形成情感垂直领域的RAG向量数据库，并以此训练一个专门解决用户情绪管理的大模型，结合Agents技术形成情感类AI智慧体。在产品里植入协助用户之间深度交互提供情绪价值的社交元素，根据用户的更深层化的需求处理准确洞察匹配需求，帮助用户做有信心的购买决定并提供基于意识源头的商品和服务，建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

独角也有噬元兽