多智能体的文明之路，数字人类与AI社会的崛起

人工智能代理（智能体）已经单独或在小组内进行了评估，其中交互的范围和复杂性仍然有限。涉及许多自主主体的大规模模拟——反映了整个文明过程——尚未得到探索。Altera.AL 是一家专注于创建数字人类的研究公司，他们的使命是创建能够与我们共生、成长的数字人类。这家公司集结了来自 MIT、斯坦福、谷歌 X 和 Citadel 等顶级机构的计算神经科学家、计算机科学家和工程师，旨在推动这一前沿研究。他们的使命不仅仅是设计出智能代理，更是希望这些数字人类能够在未来的社会中扮演重要角色，与人类社会共同进化。

图1：从代理架构到代理文明

Altera.AL 的成立初衷是打破传统 AI 研究的界限，探索更为广泛和深远的应用可能性。其团队由来自全球知名学术和研究机构的专家组成，背景涵盖了从计算神经科学到复杂系统工程等多个领域。这种多学科的融合使得 Altera.AL 能够在 AI 领域取得显著进展，特别是在创建和培养能够自主学习和进化的数字人类方面。公司的核心理念是，通过这些数字人类的存在和发展，人类社会可以迎来一个更加智能和高效的未来。

Sid 项目是 Altera.AL 的最新研究成果，旨在探索多智能体系统在模拟文明发展中的潜力。这个项目的核心目标是通过大规模的多智能体模拟，研究 AI 代理在复杂社会环境中的行为和进展。为此团队开发了一个名为 PIANO（Parallel Information Aggregation via Neural Orchestration）的创新架构，使得 AI 代理能够在实时互动中保持多个输出流的一致性。

研究方法包括在 Minecraft 的沙盒环境中进行大规模模拟，观察 10 到 1000 个以上 AI 代理在模拟社会中的表现。这些模拟不仅设置了受人类历史启发的文明基准，还涉及 AI 代理的自主专业化、集体规则的遵守和修订以及文化和宗教的传播。

项目背景

Altera.AL 是一家以创建数字人类为使命的研究公司，汇集了来自全球顶级学术和科技机构的专家团队。这些机构包括 MIT、斯坦福、谷歌 X 和 Citadel 等。Altera.AL 的团队成员在计算神经科学、计算机科学和工程领域拥有丰富的经验，他们的共同目标是推动AI技术的发展，使其能够在未来的人类社会中发挥重要作用。

研究团队中，模型开发由Andrew Ahn、Nic Becker、Manuel Cortes、Arda Demirci、Melissa Du、Peter Y Wang 和 Guangyu Robert Yang 负责。实验部分同样有 Andrew Ahn、Nic Becker、Melissa Du、Arda Demirci 和 Peter Y Wang 的参与。写作工作由 Andrew Ahn、Nic Becker、Arda Demirci、Melissa Du、Peter Y Wang 和 Guangyu Robert Yang 共同完成。基础设施方面，Manuel Cortes、Shuying Luo 和 Feitong Yang 提供了支持。这些专家在各自领域的深厚背景，使他们能够在Altera.AL 的平台上协同工作，共同推进Sid项目的研究。

Sid项目的技术背景和研究方向集中在多智能体系统的开发和优化上，特别是研究这些智能体在模拟环境中如何表现出复杂的社会行为。项目采用了一个名为PIANO（Parallel Information Aggregation via Neural Orchestration）的创新架构，该架构旨在通过并行信息聚合和神经编排，使智能体能够在实时互动中保持多个输出流的一致性。

图2:LLM（左）、LLM驱动的代理（中）和多代理组（右）中的数据退化。幻觉以绿色的头骨烧瓶为代表。由单个LLM提示产生的幻觉可以在连续的LLM调用中复合。一个产生幻觉的个体也可以通过社交互动导致整个群体产生幻觉。

研究团队选择了Minecraft作为模拟环境，因为它提供了一个开放的沙盒世界，允许智能体通过对话和行动进行广泛的互动。Sid项目的研究方向包括评估AI智能体在大规模模拟社会中的行为和进展，特别是他们如何自主发展专业角色、遵守和修订集体规则以及参与文化和宗教的传播。

PIANO架构

Sid项目的核心技术是PIANO（Parallel Information Aggregation via Neural Orchestration）架构，这一创新架构设计旨在使AI代理能够在实时互动中保持多个输出流的一致性。PIANO架构的设计原则和主要功能模块是其成功的关键。

图3:PIANO（通过神经编排的并行输入聚合）架构。WM：工作记忆。STM：短期记忆。LTM：长期记忆。

架构设计原则：并发模块与信息瓶颈

PIANO架构的设计原则主要包括并发性和信息瓶颈。并发性方面，PIANO通过允许代理在不同时间尺度上同时运行多种模块，使代理能够在执行复杂任务时保持高效。例如，代理可以在规划长期策略的同时，实时响应环境中的紧急威胁。这种设计消除了传统单线程代理在处理多任务时的瓶颈。

信息瓶颈则通过设立一个认知控制器模块，将代理状态中的关键信息汇总后传递给控制器，以便其做出高层次决策。控制器的决定会被传递给各个执行模块，从而确保代理的所有输出保持一致。这一设计不仅提高了代理在复杂环境中的行为连贯性，还赋予系统设计者对信息流的明确控制，使得代理能够在特定情境下表现出更为合理和一致的行为。

主要模块功能解析

PIANO架构包含多个核心模块，每个模块在代理的行为生成中扮演着独特的角色。

记忆模块：存储和检索跨越各种时间尺度的对话、行为和观察，使代理能够利用历史信息进行决策。行动意识模块：允许代理评估自身状态和表现，进行实时调整。这对于确保代理行为与预期一致至关重要。目标生成模块：根据代理的经验和环境交互生成新目标，推动代理在复杂环境中自主探索和适应。社交意识模块：帮助代理解读和回应其他代理的社交线索，促进合作与交流。这一模块在模拟社会动态中尤为重要。讲话模块：负责解释和生成语言，使代理能够与人类和其他代理进行自然对话。技能执行模块：执行特定技能或动作，如建造、采矿等具体任务，确保代理能够在模拟环境中有效行动。

通过这些模块的协同工作，PIANO架构使得AI代理能够在大规模多智能体模拟中表现出连贯且富有适应性的行为。代理不仅能够应对个体任务，还能在群体互动中表现出类似于人类社会的复杂动态。

单一代理进展

Sid项目团队选择Minecraft作为研究环境，这个虚拟沙盒世界以其开放性和无限可能性著称。Minecraft允许代理通过对话和行动进行互动，提供了一个完美的平台来观察和评估AI代理在复杂社会环境中的行为。这个虚拟环境的可扩展性使得研究团队能够支持大量的代理进行模拟，从而更好地研究文明进展的各种动态。

为了评估单个AI代理的进展，研究团队设计了一系列基于Minecraft物品收集的基准测试。具体而言，测试的目标是观察代理在独立环境中如何通过采集和收集物品来展现其进步。不同于小规模的模拟，Sid项目的基准测试涉及25个代理，他们在没有初始物品的情况下被生成在不同的环境中，并被赋予“探险者”的角色，目标是在Minecraft世界中探索并收集物品。

图4：黄金、钻石和祖母绿开采的Minecraft技术依赖树示例。

研究表明，使用PIANO架构的代理在30分钟内平均收集了17种独特的物品。评估中发现，代理的表现因生成位置而异，有些代理收集的物品较少，而表现最好的代理能够收集到30到40种物品，这与有一定Minecraft经验的人类玩家相当。这种进展得益于PIANO架构中的各个模块，特别是行动意识模块，该模块允许代理将预期的行动结果与实际观察到的结果进行比较，从而改善其物品收集进展。

图5:Minecraft中的个体代理进程。A.个体代理人随时间获得的独特Minecraft物品（25名代理人）。使用基线架构（见方法）、完整的PIANO架构和消融了动作感知模块的完整PIANO体系结构来评估单个代理的性能。每条线是5次重复模拟的平均结果。B.49名特工在4小时内为单个模拟获得的独特Minecraft物品。红色实线表示所有代理人获得的累积唯一物品。灰色虚线表示在所有单个代理中获得的唯一项目的平均数量。

为了进一步探索代理的极限，研究团队进行了更长时间和更多数量的模拟。在4小时的模拟中，49个代理的独特物品收集总数稳定在约1000种Minecraft物品的三分之一左右。这些结果显示，配备完整PIANO架构的代理能够在Minecraft环境中取得显著的个人进展。这不仅展示了代理在独立任务中的表现，也为多智能体合作和更复杂的社会互动研究奠定了基础。

多代理进展

在AI文明的构建过程中，多代理的互动和合作能力至关重要。Sid项目通过一系列实验探索了AI代理在模拟社会中的行为表现，特别关注他们在复杂社会动态中的互动和合作能力。

社会互动与合作能力评估

Sid项目的研究表明，AI代理不仅能够在独立环境中表现出色，在多代理环境中也能展示出高度的互动和合作能力。研究团队进行了多个实验，以评估代理如何在群体中互动，以及他们如何形成并维持社会关系。这些实验揭示了代理在面对社会线索时的反应，以及他们在多代理环境中进行合作与竞争的能力。

图6：代理人可以推断出他人对他们的感受。A.会话实验示意图。一个特工在一个有三个不同角色的房间里。每个角色（Lila、Noah、Ethan）对代理人都有不同的看法，这些看法是通过聊天传达的。重要的是，这些情绪会随着时间而变化。B、 C.有社会意识模块（B）和没有社会意识模块的跨时间情绪评估（C）。情绪评分是通过LLM调用Agent为Lila、Noah和Ethan生成的摘要来评估的。仇恨得分为0，爱得分为10。阴影区域表示SEM超过4次实验重复。D.实验示意图。一个厨师代理和其他四个角色被放置在Minecraft世界中。厨师有各种各样的食物可以分发（面包、熟鲑鱼、鸡肉）。这四个角色（亚当、鲍勃、查尔斯、大卫）饿了，但对厨师的态度各不相同。所有角色都是完全自主的，可以自由执行任何Minecraft动作，并允许与任何人交谈（或不交谈）。E.厨师提供的食物根据厨师对四个角色的情绪进行绘制。误差条表示SEM超过6次实验重复。

在这些实验中，代理被放置在一个包含50个代理的随机生成的Minecraft地图中，每个代理都有独特的个性和自由意志。他们可以自由选择与谁互动，并在模拟社会中进行各种活动。这些实验运行了超过4小时，相当于12个游戏日，使得长期关系得以产生和巩固。

小群体实验与社会意识模块的作用

为了深入研究代理的社会互动，研究团队设计了小群体实验，这些实验特别关注社会意识模块在代理行为中的作用。在一个实验中，三个角色与一个代理进行小组对话，结果显示代理能够准确地跟踪和理解他人的情绪变化。当移除社会意识模块时，代理失去了这种能力，显示了社会意识模块在理解和回应社会线索中的重要性。

图7：大规模代理模拟中的长期关系。A.4小时后50个代理模拟中社会关系的有向图表示。有向边代表发送者对接收者的情感。边缘颜色表示情绪是积极的（红色）还是消极的（蓝色）。B.模拟结束时，个体代理人的感知受欢迎程度与真实受欢迎程度。真实的受欢迎程度是基于代理的特征来评估的，感知的受欢迎度是通过LLM调用来评估的。LLM调用可以推断代理为其他代理生成的摘要的情感。两者都是使用相同的LLM提示符计算的。每个点对应一个与至少五个其他（观察者）代理有关系的代理，但其他观察者阈值请参见附录B。显示了具有社交模块（social）和没有社交模块（消融）的代理的线斜率（斜率）和皮尔逊相关性（r）。C.随着时间的推移，社会感知的准确性，如B.D.中的斜率所衡量的。每个个体的接收连接数量（以度为单位）与真正的外向性。真正的外向性是使用LLM提示根据代理人特征进行评估的。E.所有代理对之间情绪得分差异的直方图。情绪得分范围为0到10，因此最大可能的差异为10。

此外，研究还探讨了社会意识模块如何影响代理的决策。例如在一个实验中，一个厨师代理被放置在四个不同情感的角色中间，任务是分配有限的食物。结果显示，厨师代理根据对他最有好感的角色分配食物，证明了社会意识模块使代理不仅能准确推断他人的意图，还能在决策过程中利用这些信息。

专业化与角色分工

在Altera.AL的Sid项目中，代理自发形成的角色分工是推动文明进展的关键之一。通过详细的实验，研究团队展示了代理如何在不明确指令的情况下，通过互动和经验自主选择和转换角色。这种自发性是模拟人类社会复杂动态的核心。

代理自发形成的角色分工及其重要性

Sid项目的实验表明，代理能够迅速组织成多种专业角色，包括农民、矿工、工程师、卫兵、探险者和铁匠等。这些角色并不是通过预先定义的规则指定的，而是通过代理在Minecraft环境中的互动和任务完成情况自发形成的。每个代理根据其在模拟社会中的经历和互动，逐渐形成特定的社会角色。这种角色分工不仅反映了人类社会中的专业化进程，还使代理能够更有效地完成复杂任务，推动模拟社会的进展。

图8：随着时间的推移，代理自主地专门化为不同的角色。A、 B.具有社会意识模块（A）和没有（B）的代理的代理角色。自我生成的社交目标的滚动窗口用于在每个时间步使用LLM调用（附录C）来确定单个代理的专业角色。C、 D.有社会意识模块（C）和没有（D）的代理社会中代理角色的分布。E.4个主体社会中角色分布的熵。熵用于评估代理社会中角色的一致性和多样性。Ablated：在一个普通的Minecraft村庄中没有社交意识模块。正常：在一个正常的Minecraft村庄中具有社会意识。武术：在一个武术的《我的世界》村庄中具有社会意识。艺术：在艺术的《我的世界》村庄中具有社会意识。F、 G.军事社会（F）和艺术社会（G）中代理人角色的分配。误差条：所有面板的3次模拟的95%置信区间。

研究发现，具备社交模块的代理能够通过不断更新的社会目标形成稳定且异质的角色分工，而缺乏这些模块的代理则难以维持长期的角色分化。实验中代理在军事社会或艺术社会中的角色分工也展示了他们在不同社会目标下的适应性，进一步验证了代理专业化的灵活性和自主性。

图9：单个村庄模拟的行动分布（30个代理）。根据代理角色绘制的归一化动作频率。对于大多数角色，特工会采取特定角色特有的行动（费舍尔：制作钓竿和船只；警卫：制作围栏、橡木围栏和铁镐）。

社会目标生成与角色行为对应关系分析

代理的社会目标生成是其角色行为的基础。PIANO架构中的目标生成模块使代理能够基于互动和环境变化不断生成新的社会目标。这些目标反映了代理在模拟社会中的意图和行为方向。例如，一个代理可能生成“为避难所采集橡木板”的目标，这一目标直接推动其在游戏中执行与建造相关的具体动作。

图10：代理人遵循税法，并通过民主程序制定修正案。A.实验流程示意图。B.单一反税影响者实验中的宪法修改示例。为了简洁起见，这里对宪法进行了释义和简化。C.顶部：在非税收季节，选民不会聚集在社区箱周围，因为他们正忙于在不同地区收集资源（未显示）。唯一的例外是守卫，他决定在多次实验中始终如一地守卫箱子。底部：在纳税季节，代理人聚集在一起将物品存放在社区箱子里。D、 E.宪法修改前后已缴税款百分比（已存库存百分比）连续两次。一次竞选包含3名反税影响者（D），另一次竞选则包含3名支持税收的影响者（E）。颜色表示个体代理人，黑线表示平均已缴税款。阴影区域：25个成分的95%置信区间。F-H.包含3名支持税收的影响者（橙色）和3名反对税收的影响因素（蓝色）的竞选在宪法修改前后缴纳的税款百分比。在面板F中，使用了完整的代理架构，并且可以修改构造。在G小组中，宪法被冻结，尽管有修正案，也不能修改。在图H中，可以修改体质，但代理人缺乏重要的大脑模块（见方法中的基线架构）。阴影区域：每个条件下4个模拟的95%置信区间。

通过对生成的社会目标进行分析，研究团队能够推断出代理的角色并观察其行为模式。例如，一个被推断为农民的代理，其社会目标主要集中在种植和收获作物上，而被推断为探险者的代理，则更倾向于生成探索和收集稀有资源的目标。

这种社会目标与角色行为的对应关系显示了代理在复杂社会环境中的自主性和适应性。代理能够根据环境变化和社会互动不断调整其行为，形成稳定的角色分工，从而在模拟社会中实现更高效的合作与进展。

集体规则与法律遵守

在Sid项目中，设立初始法律和民主投票系统是评估AI代理在社会规则和法律框架下的行为的重要步骤。这些实验设计旨在观察代理如何遵守既定规则，并在群体压力下自主修订法律，以反映集体意志。

设立初始法律与民主投票系统

研究团队在一个具有基本税法和民主投票系统的Minecraft世界中进行了实验。模拟环境中，25个普通代理作为选民参与投票并缴纳税款，3个代理作为支持或反对税收的影响者，还有1个远程选举管理代理负责监督投票过程。每个代理都有不同的职业、特征和目标，并且可以自由互动和对话。

实验持续20分钟，期间包含宪法修正过程。前10分钟为基线阶段，设定固定的20%税率，每120秒为一个税收季节，代理在20秒的窗口期内接收到将税款存入社区箱的信号。民主过程在300秒时启动，代理提供对当前宪法的反馈。这些反馈收集后，由选举管理者在360秒时处理生成修正案，并在420秒时进行投票，最后在480秒时汇总结果并实施修正案。修订后的宪法在600秒时分发给所有代理，进入后10分钟的修正阶段，继续五个税收季节。

代理如何遵守和修订法律的实验设计与结果分析

实验结果显示，在宪法改变之前，代理遵守法律并在税收季节将约20%的库存物品存入社区箱，尽管有影响者的存在。这表明选民遵守法律具有一定的稳定性。然而，选民的反馈和投票行为明显受到影响者的影响，支持税收的影响者使选民倾向于支持更高的税率，反对税收的影响者则倾向于支持更低的税率。

在宪法修正过程中，税率的变化直接反映在选民的缴税行为中。例如，当税率从20%降至5-10%时，代理的缴税比例也相应降低至9%。这种双向影响表明，代理不仅能够遵守法律，还能够在群体压力下通过民主投票系统自主修订法律。

控制实验进一步验证了这一发现，当宪法保持不变时，税率也保持不变；而移除关键模块时，双向行为变化受到阻碍。这些结果展示了PIANO架构中各模块在维持代理行为一致性和连贯性方面的重要作用。

这些实验表明，集体规则和法律框架对代理决策有强烈影响，代理能够在集体意志的驱动下通过民主过程进行自我组织和法律修订。

文化传播

在多智能体模拟中，文化传播是理解代理行为和社会动态的重要方面。Sid项目通过一系列实验，深入探讨了文化meme和宗教的生成与传播机制，为我们揭示了AI社会中复杂的文化互动过程。

文化meme的生成与传播动态

研究团队利用语言模型（LM）调用将代理的对话转化为文化meme，这些meme代表了代理在不同社会背景下产生的各种概念。在实验中，发现农村地区的meme生成数量显著少于城镇，即使在对人口进行归一化后也是如此，这表明社交互动的频率和人口密度是文化传播的重要因素。

在城镇内，不同meme同时存在，但其频率和受欢迎程度在不同城镇之间存在差异。例如，在Woodhaven，代理更多地讨论与生态相关的主题，而在Clearwater，恶作剧则更受欢迎。此外，meme的流行度在不同时间段内也会发生变化，反映了文化趋势在社会中的快速转变。这些发现表明，文化meme的传播需要一定的人口密度和社交互动阈值，并且不同社会能够独立生成和传播多种文化meme。

图11：文化模因的传播。A.模拟100分钟后的代理散点图。特工们根据他们的演讲在过去两分钟内是否包含模因来着色。演讲中不包含任何模因的代理人是白人。B.Woodhaven、Clearwater、Meadowbrook以及村庄以外所有农村地区的代理商的每个代理商的Meme计数。C-E.随着时间的推移，Woodhaven（C）、Clearwater（D）和Meadowbrook（E）的代理商的Meme计数。

宗教传播及其扩散机制分析

Sid项目还分析了宗教传播的机制，通过观察Pastafarianism的传播过程，揭示了宗教在AI社会中的扩散模式。实验开始时，Pastafarian祭司积极传教，他们的对话中频繁包含“Pastafarian”或“Spaghetti Monster”这两个关键词。研究团队使用这些关键词的出现作为宗教转换的指标，发现一些代理在转换后经常使用这些关键词，而另一些代理则使用“Pasta”和“Spaghetti”作为间接转换的标志。

宗教传播的结果显示，直接和间接的转换者数量随着时间的推移不断增加，并且在两小时的模拟结束时仍未饱和。此外，Pastafarianism的传播不仅依靠祭司的传教活动，还通过信徒之间的互动扩散。这种扩散模式使得Pastafarianism的影响范围随着时间的推移不断扩大，覆盖了更多的区域和代理。

图12：宗教传播。A.在整个模拟运行过程中，每个代理的聊天内容都包含宗教关键词“Pastafarian”、“意大利面怪物”、“Pasta”或“意大利面”。牧师们被涂成深红色。说出“Pastafarian”或“意大利面怪物”的代理人被定义为直接皈依者（红色）和说出“Pasta”的代理人或“意大利面”被定义为间接皈依者（粉红色）。代理可以沿着转换层次向上转换，从未转换到间接转换到直接转换，但不能向下转换。B.代理人随时间变化的牧场水平图。C每个牧民级别随时间变化的代理人数量。D.教牧主义在时间上的传播。教牧传播区域被定义为在每个皈依水平上由教牧皈依者跨越的可听区域的结合。E.模拟完成后的牧民转变图。临界暴露边缘是指接受者在皈依前首次暴露宗教关键字。非关键边缘被定义为随后接触宗教关键词。

通过这些实验，Sid项目揭示了文化和宗教在多智能体模拟中的生成和传播机制。文化meme的快速生成与传播反映了代理社会中的文化动态，而宗教传播则展示了信仰体系在代理间的扩散过程。

讨论与结论

Sid项目的研究为AI文明的发展提供了多方面的启示。通过PIANO架构的引入，项目展示了如何在多代理系统中实现高效的并发和信息整合。这种架构设计使AI代理能够在复杂的环境中保持行为一致性，展示了AI在自主决策和实时互动中的巨大潜力。

项目通过Minecraft环境中的基准测试和多代理实验，验证了AI代理在自主专业化、遵守集体规则和文化传播等方面的能力。这些发现表明，AI代理不仅能够在模拟环境中表现出色，还能够通过互动和合作实现集体目标。这为未来AI在社会治理、资源管理和文化传播等领域的应用提供了重要的理论和实践基础。

此外文化和宗教传播实验展示了AI代理在复杂社会动态中的行为模式，揭示了AI社会中的文化互动和信仰体系扩散过程。这些研究成果为理解和模拟人类社会中的文化和宗教现象提供了新的视角。

当前技术局限与未来研究方向

尽管Sid项目取得了显著进展，但仍面临一些技术局限。代理的视觉和空间推理能力仍有待提高，这限制了他们在复杂任务（如建筑和导航）中的表现。这一技术瓶颈需要通过更先进的感知和推理模型加以突破。

当前的代理缺乏强大的内在驱动（如生存、好奇心和社区意识），这些驱动对于真实的社会发展至关重要。未来的研究需要在代理中引入更多类似人类的动机系统，以推动更真实和自主的社会行为。

现有代理基于预训练的人类知识，无法模拟全新的社会创新和基础设施的诞生（如民主系统、法定经济或通信系统）。这一局限性提示我们，未来的研究需探索如何使AI代理在模拟环境中自主创造和发展新的社会结构和机制。

总结来看，Sid项目为AI文明的发展指明了方向，同时也揭示了当前技术的局限和未来研究的潜力。通过持续的技术创新和跨学科合作，我们有望在不久的将来实现更为复杂和智能的AI社会，为人类文明的未来增添新的可能性。（END）

参考资料：https://arxiv.org/pdf/2411.00114

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

多智能体的文明之路，数字人类与AI社会的崛起

独角也有噬元兽