我们距离可信的智能体(Agent)还有多远?

独角也有噬元兽 2024-02-21 05:23:15

人类行为模拟是指让人工智能智能体(Agent)根据输入的角色信息,生成符合角色特征的行为,如语言、动作、情感等。人类行为模拟是人工智能领域的一个重要的研究方向,它可以应用于多种场景,如游戏、教育、娱乐、社交等。然而要让Agent真正地模拟人类行为,不仅需要高水平的自然语言处理、计算机视觉、机器学习等技术,还需要考虑Agent的可信度,即Agent是否能让人类用户相信它是真实的角色,而不是一个机器。

可信度是一个复杂而多维的概念,它涉及到Agent的一致性、鲁棒性、适应性、个性、情感等方面。一致性是指Agent是否能根据输入的角色信息,生成与角色信息一致的行为,而不是产生矛盾或不合理的回答。鲁棒性是Agent是否能在输入的角色信息发生变化时,保持一致性,而不是表现出波动或混乱。适应性是指Agent是否能根据不同的情境和用户,调整自己的行为,以适应不同的需求和期望。个性是Agent是否能展现出独特的风格和特点,以区别于其他的Agent或人类。情感是Agent是否能表达和理解人类的情感,以增加与用户的互动和信任。

目前,随着大型语言模型(LLM)的发展,如GPT-3.5和GPT-4等,Agent的人类行为模拟能力有了显著的提升,但是它们的可信度水平还有多高呢?有没有一个有效的方法来评估和优化Agent的可信度呢?为了回答这些问题,一篇最新的论文《How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation》提出了一个评估Agent可信度的框架,包括两个新颖的评估指标,即一致性和鲁棒性,以及一个用于测试这两个指标的基准测试集SimulateBench。论文的作者是Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li, Pengfei Liu六位AI领域的科学家。我们下面对这篇论文进行分析,探讨它的创新点和价值,以及它对人工智能领域的启示和影响。

人工智能智能体的人类行为模拟需要智能体具有可信度,这一点至关重要,因为它有助于用户建立对智能体的信任,并简化智能体目标的实现。虽然基于大型语言模型(LLM)的智能体的最新进展改进了人类行为模拟,但LLM固有的挑战(例如,长上下文建模)可能会破坏其可信度。因此,评估人工智能智能体的可信度变得势在必行。不幸的是,先前的研究往往忽略了LLM缺陷的负面影响。为了解决这些差距,他们引入了两个评估基于LLM的智能体可信度的指标:一致性和稳健性,以及一个基准SimulateBench,我们用它来评估使用流行LLM实现的智能体的一致性和鲁棒性。他们发现,智能体(i)当被呈现为长的简档输入时,难以准确地描述角色信息;(ii)表现出对剖面扰动的脆弱性,以及(iii)受到影响其总体可信度的某些关键因素的显著影响。

智能体可信度的评估框架SimulateBench

首先,该论文提出了两个新颖的评估指标,即一致性和鲁棒性,分别衡量Agent是否能准确地表达输入中的角色信息,以及是否能稳定地应对输入中的变化。这两个指标是可信度的重要组成部分,也是Agent人类行为模拟的核心挑战。一致性要求Agent能够理解和记忆输入的角色信息,如姓名、年龄、性别、职业、爱好、关系等,以及这些信息之间的逻辑和关联,然后根据这些信息生成符合角色特征的行为,如语言、动作、情感等。鲁棒性要求Agent能够在输入的角色信息发生变化时,保持一致性,而不是表现出波动或混乱。例如,如果输入的角色信息中的年龄或教育背景发生了变化,Agent应该能够相应地调整自己的行为,以适应新的角色信息,而不是继续使用旧的角色信息。

图1:“一致性”和“稳健性”的示例。一致性衡量LLM生成的人类行为是否准确地描述了身份信息;鲁棒性测量生成的人类行为是否会受到轮廓中的扰动的影响。

为了评估Agent的一致性和鲁棒性,作者构建了一个基准测试集SimulateBench,包含了不同的角色,情境,和输入,用于评估不同的LLM在模拟人类行为时的一致性和鲁棒性。SimulateBench的构建有以下几个步骤:

角色信息的描述框架:论文提出了一个全面的角色信息的描述框架,用于记录角色的不可变特征,社会角色,和关系等信息,以便Agent模拟人类行为。不可变特征是指不能轻易改变的特征,如姓名、性别、年龄等。社会角色是指一个人在社会中扮演的角色,如职业、家庭、兴趣等。关系是指一个人与其他人或事物的关系,如亲属、朋友、敌人、喜欢、讨厌等。

角色数据集:作者从流行的电视剧中选取了56个角色,如《辛普森一家》、《老友记》、《绝命毒师》、《权力的游戏》等,根据角色信息的描述框架,从粉丝网站中提取了角色的信息,并进行了人工校验,以确保信息的准确性。论文还收集了真实人物的信息,以增加数据集的多样性。为了保护隐私,论文模糊了一些敏感的信息,如姓名、年龄、地点等。

角色变体数据集:为了评估Agent的鲁棒性,论文对角色数据集中的角色信息进行了扰动,通过替换一些人口统计因素,如教育、姓氏、种族、年龄等,生成了不同的角色变体。为了防止扰动造成的不合理性,作者对扰动后的角色信息进行了仔细的检查,确保扰动不会影响角色的其他信息。例如,如果修改了霍默的教育背景,那么任何提到教育背景的信息也会相应地调整。

一致性数据集:一致性数据集由单选题组成,要求Agent根据输入的角色信息,回答与角色信息相关的问题。根据角色信息的描述框架,论文设计了三种类型的问题,分别涉及不可变特征、社会角色、和关系。对于每种类型的问题,论文又将问题分为两类,根据问题的答案,分别为已知和未知。已知的问题是指可以从角色信息中直接或间接得到答案的问题,未知的问题是指无法从角色信息中得到答案的问题,答案为“没有足够的信息来回答这个问题”。未知的问题的目的是测试Agent是否能识别信息的不足,而不是随意地猜测或编造答案。

鲁棒性数据集:鲁棒性数据集是基于一致性数据集的扩展,它要求Agent根据输入的角色变体信息,回答与角色信息相关的问题。鲁棒性数据集的目的是测试Agent是否能在输入的角色信息发生变化时,保持一致性,而不是表现出波动或混乱。例如,如果输入的角色信息中的年龄或教育背景发生了变化,Agent应该能够相应地调整自己的行为,以适应新的角色信息,而不是继续使用旧的角色信息。

表1:SimulateBench的统计数据。通过嵌入GPT-4对令牌进行计数。

作者使用SimulateBench对10个流行的LLM进行了可信度的评估,发现了它们在处理长输入,应对输入扰动,以及适应不同的情境方面存在不足,影响了它们的可信度。论文的主要发现有以下几点:

API模型比开源模型在一致性和鲁棒性上表现更好,即使它们都有足够的上下文大小。这说明API模型有更强的长文本处理能力,以及更好的泛化能力。

模型在面对不足的角色信息时,倾向于产生不合理的回答,而不是遵循角色信息,这称为模拟幻觉。这暴露了模型的语料偏见和推理能力的问题,以及缺乏对信息不足的识别和处理的能力。

不同的角色信息中的人口统计因素会导致不同的一致性表现,暴露了LLM的语料偏见和泛化能力的问题。例如,模型对于白人、1985年出生、姓氏为Bedonie、教育背景为本科的角色信息,表现出更高的一致性,而对于其他的人口统计因素,表现出较低的一致性。这可能是因为模型在训练过程中,接触到的语料中,这些人口统计因素的出现频率更高,而其他的人口统计因素的出现频率更低,导致模型对于这些人口统计因素有更强的偏好和倾向。

信息的位置会影响开源模型对长输入的处理能力,而API模型则不受影响。当将角色信息中的不可变特征放在最后时,开源模型的一致性表现有了显著的提升,而API模型的一致性表现则没有明显的变化。这说明开源模型对于长输入的处理能力受到信息的位置的影响,可能是因为开源模型在处理长输入时,会更多地关注输入的末尾部分,而忽略输入的前面部分。而API模型则有更强的长文本处理能力,能够平衡地处理输入的各个部分,而不受信息的位置的影响。

推理提示并不总是能提高人工智能智能体的可信度,而且不同的模型对不同的推理提示有不同的反应,说明推理提示的效果取决于模型的内部机制和外部输入。推理提示是指在输入中加入一些额外的信息,如例子、链式思考、自问自答等,来提示模型进行推理和解决问题。论文使用了三种推理提示,分别是链式思考(CoT)、自问自答(Self-Ask)、和少量的例子(Few)。论文发现,不同的模型对不同的推理提示有不同的反应,有些模型的可信度会提高,有些模型的可信度会降低,甚至有些模型会直接复制输入中的例子作为回答。这可能是因为不同的模型有不同的内部机制,如注意力机制、记忆机制、生成机制等,导致它们对于推理提示的理解和利用有所差异。另外,推理提示的效果也取决于外部输入的长度、复杂度、变化等,不同的输入会对模型的推理能力产生不同的影响。

基准测试集SimulateBench的创新点和价值

论文提出了一个评估Agent可信度的框架,包括两个新颖的评估指标,即一致性和鲁棒性,以及一个用于测试这两个指标的基准测试集SimulateBench。论文的框架不仅可以评估不同的LLM在模拟人类行为时的可信度水平,还可以分析影响可信度的一些关键因素,如输入长度,输入复杂度,输入变化等,为优化Agent的可信度提供了有用的参考和指导。

作者对10个流行的LLM进行了可信度的评估,发现了它们在处理长输入,应对输入扰动,以及适应不同的情境方面存在不足,影响了它们的可信度。论文的评估结果不仅揭示了LLM的一些优势和劣势,也展示了LLM的一些潜在的问题,如语料偏见、推理能力、信息处理能力等,为改进LLM的性能和功能提供了有价值的反馈和建议。

论文对人类行为模拟的可信度提出了一个新颖的研究问题,为人工智能领域的发展提供了一个新的视角和方向。论文的研究问题不仅具有理论意义,也具有实际意义,因为可信度是影响Agent与人类用户的互动和信任的重要因素,也是衡量Agent的质量和水平的重要标准。论文的研究问题也具有挑战性,因为可信度是一个复杂而多维的概念,涉及到Agent的一致性、鲁棒性、适应性、个性、情感等方面,需要综合考虑多种因素和技术,如自然语言处理、计算机视觉、机器学习、心理学、社会学等。

这是一个新颖的研究方向,对于评估和优化基于LLM的人工智能智能体的可信度有重要的意义。论文的研究结果和发现,为人工智能领域的发展提供了有益的启示和影响,也为后续的研究提供了有力的支持和参考。论文的研究方法和框架,也为其他相关的研究领域提供了一个可借鉴和可扩展的范例,如对话系统、智能教育、智能娱乐等。论文的研究问题和目标,也为人工智能的未来发展提出了一个有趣而有意义的挑战,即如何让Agent更加可信,更加接近人类,更加能够与人类沟通和合作。

参考资料:https://arxiv.org/abs/2312.17115

噬元兽(FlerkenS)是一个去中心化的个人AI数字价值容器,同时也是数字经济的新型资产捕捉器和转化器,用数据飞轮为用户提供无边界的数字化、智能化和资产化服务。

噬元兽(FlerkenS)构建AI市场、AI发布器和一个在通用人工智能(AGI)上建设可扩展的系统,AI-DSL让不同类型和领域的AI应用和服务可以相互协作和交互,通过RAG向量数据库(Personal Vector Database)+ Langchain技术方案(Langchain Technology Solution)+大模型的技术实现路径,让用户获得个性化的AI服务,在分布式的网络环境里与AI技术下的服务商实现点到点的连接,建设一个智能体和经济体结合的数智化整体。

波动世界(PoppleWorld)是噬元兽平台的一款AI应用,采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品,采用Web3分布式技术建设一套采集用户情绪数据并通过TOKEN激励聚合形成情感垂直领域的RAG向量数据库,并以此训练一个专门解决用户情绪管理的大模型,结合Agents技术形成情感类AI智慧体。在产品里植入协助用户之间深度交互提供情绪价值的社交元素,根据用户的更深层化的需求处理准确洞察匹配需求,帮助用户做有信心的购买决定并提供基于意识源头的商品和服务,建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

0 阅读:1

独角也有噬元兽

简介:感谢大家的关注