语音模型可以作为基于文本的世界模拟器吗？GPT-4还不行

从早期的规则驱动模型到现在的大型预训练模型，语言模型已经成为了自然语言处理领域的核心技术。它们不仅能够理解和生成自然语言文本，还在不断拓展其应用边界，试图模拟和理解复杂的世界状态。这种能力的提升让我们不禁思考：语言模型是否能够作为基于文本的世界模拟器，在没有图形界面的情况下，通过文本描述来模拟现实世界的动态变化？

近日发表的论文《Can Language Models Serve as Text-Based World Simulators?》源于对当前语言模型能力的探索和挑战，并在学术圈引起广泛关注和热议。研究团队希望通过构建一个新的基准测试——BYTESIZED32-State-Prediction，来直接量化大型语言模型（LLMs）作为基于文本的世界模拟器的能力。他们关注模型是否能够准确预测由特定行动引起的状态变化，以及在没有图形界面的情况下，如何通过文本描述来模拟现实世界的动态变化。他们测试了GPT-4，并发现尽管其表现令人印象深刻，但在没有进一步创新的情况下，它仍然是一个不可靠的世界模拟器。这项工作为当前LLM的能力和弱点提供了新的见解，并为跟踪未来新模型的进展提供了一个新的基准。

研究团队由来自不同机构的专家组成，包括亚利桑那大学、纽约大学、约翰霍普金斯大学、微软研究院蒙特利尔分部以及艾伦人工智能研究所的研究人员。这些作者在自然语言处理、人工智能和相关领域拥有丰富的研究经验和深厚的学术背景。他们的合作跨越了学术界和工业界的界限，共同探索语言模型在模拟复杂世界状态方面的潜力和挑战。

通过这项跨学科的合作，他们旨在推动语言模型在模拟和理解复杂世界状态方面的研究，为未来人工智能的发展提供新的视角和可能性。这不仅是对语言模型能力的一次全面考验，也是对其在未来可能应用场景中作用的一次前瞻性探索。

研究背景与相关工作

虚拟环境一直是评估和提升算法性能的重要工具。它们提供了一个受控的实验场景，让研究人员可以在安全的条件下测试和优化AI系统的决策能力。这些环境通常涉及复杂的交互和动态变化，模拟现实世界中的各种情况。在基准测试中，虚拟环境的作用不仅仅是提供测试平台，更重要的是它们能够揭示AI系统在理解和响应环境变化方面的能力。

图1：我们使用LLM作为文本游戏模拟器的两种方法的概述。该示例显示了打开水槽后，水槽中的杯子充满水的过程。完整状态预测包括游戏中的所有对象，包括不相关的炉子，而状态差预测排除不相关的火炉。由Fact和Fenv引起的状态变化分别以黄色和绿色突出显示。

大型语言模型（LLMs）如GPT系列，已经展示了在理解语言和生成文本方面的显著能力。随着这些模型在处理自然语言的复杂性方面取得的进步，研究人员开始探索它们在更广泛的应用场景中的潜力，包括作为模拟器来预测和理解基于文本的虚拟环境中的状态变化。LLMs的这一潜在功能，如果得到验证，将为AI领域带来革命性的影响，因为它意味着我们可以仅通过文本描述来训练和测试AI系统，而无需复杂的图形界面。

相关文献和先前的研究成果已经为LLMs作为模拟器的可能性提供了理论基础和初步实证。例如，文本冒险游戏作为一种基于文本的交互式环境，已被用来测试AI的决策制定和问题解决能力。这些游戏要求玩家（或AI代理）阅读描述性文本，做出选择并观察结果，从而在游戏世界中前进。此外，一些研究已经尝试使用LLMs来生成代码或符号表示，这些表示可以被用来进行形式化的规划或推理。这些研究表明，LLMs在某些情况下能够捕捉到动作与结果之间的关系，尽管它们在模拟环境动态方面仍存在限制。

最近在LLMs方面的进展指向了一种替代方法，即利用它们预训练数据集中包含的大量知识。但是它们是否已经准备好直接用作模拟器？研究团队在文本游戏领域检验了这个问题，文本游戏自然地用自然语言表达环境及其动态，并且长期以来一直被用作决策过程中的一部分。

有两种方法可以在世界建模和模拟的背景下利用LLMs。第一种是神经符号学的：一些努力使用语言模型生成代码，以符号表示形式进行正式规划或推理。另一种相对较少研究的方法是直接模拟。例如，AI-DUNGEON通过语言模型生成的输出纯粹地代表游戏世界，但结果不一致。在这项工作中，研究团队提供了LLMs直接模拟虚拟环境能力的首次定量分析。他们利用JSON模式中的结构化表示作为支架，既提高了模拟精度，也允许我们直接探测LLM在各种条件下的能力。

通过对GPT-4的系统分析，研究团队发现LLMs广泛地未能捕捉到与代理行动无关的状态转换，以及需要算术、常识或科学推理的转换。在各种条件下，模型准确性不超过59.9%，用于转换中发生非琐碎变化的世界状态。这些结果表明，尽管LLMs对下游任务有前景且有用，但它们还没有准备好在没有进一步创新的情况下作为可靠的世界模拟器。

虚拟环境在基准测试中的作用、LLMs作为模拟器的可能性，以及相关文献和先前研究的成果，共同构成了本研究的理论框架和实验基础。这些元素为我们提供了一个全面评估LLMs在模拟基于文本的世界中的能力的机会，同时也指出了未来研究的方向和挑战。

研究方法论

在探索语言模型是否能作为基于文本的世界模拟器的研究中，方法论是桥梁和核心。它不仅定义了研究的范围和深度，也确立了评估标准和数据的可靠性。

LLM-Sim任务的定义和结构：LLM-Sim（Language Model as a Simulator）任务是一个新颖的研究方向，旨在评估大型语言模型（LLMs）作为文本游戏世界模拟器的能力。这个任务定义了一个特定的目标：模型需要预测在文本游戏环境中，给定一系列动作后的状态变化。这个任务被形式化为一个目标条件的部分可观察马尔可夫决策过程（POMDP），具体包含以下七元组：

状态空间（S）：游戏中所有可能的状态。

动作空间（A）：玩家或AI可以执行的所有动作。

转换函数（T）：T:S×A→S，描述了执行动作后状态如何变化。

观察函数（O）：定义了玩家或AI如何观察到当前状态。

奖励函数（R）：R:S×A→R，根据状态和动作给出奖励。

上下文消息（C）：描述游戏目标和动作语义的自然语言信息。

完成指示函数（D）：D:S×A→{0,1}，指示游戏是否完成。

表1:BYTESIZED32-SP的语料库统计。

BYTESIZED32-State-Prediction数据集的构建：BYTESIZED32-State-Prediction数据集是为了评估LLMs在模拟文本游戏世界中的能力而特别构建的。它包含从31个不同文本游戏中收集的76,369个状态转换，每个转换都表示为一个包含上下文、状态、奖励、动作和结果的元组。这个数据集是从开放的BYTESIZED32语料库衍生出来的，该语料库包含32个模拟不同科学或常识推理概念的人类编写的文本游戏。数据集的构建包括修改游戏以转储游戏状态和中间状态，并通过遵循每个游戏提供的金标准目标跟踪轨迹来收集转换。

表2：GPT-4预测整个状态转换（F）以及动作驱动转换（Fact）和环境驱动转换（Fenv）的平均每场比赛准确性。我们报告使用LLM生成的规则、人工编写的规则或不使用规则的设置。动态和静态表示是否应该改变游戏对象属性和游戏进度；Full和diff表示预测结果是完整的游戏状态还是状态差异。数字以百分比表示。

实验设计和评估标准：实验设计包括对GPT-4模型在LLM-Sim任务上的表现进行评估，特别是在完整状态预测和状态差异预测两种情况下。评估标准是模型预测准确性与测试样本数据集上的真实标签之间的一致性。此外，实验还考虑了动作驱动的转换和环境驱动的转换，以及模型在不同条件下的表现，如是否提供游戏规则等。

表3:GPT-4游戏进度预测结果

通过这些方法论，研究团队能够全面评估LLMs在模拟基于文本的虚拟环境中的能力，并为未来在这一领域的研究提供了坚实的基础。这些方法论不仅为本研究提供了清晰的方向，也为其他研究者在探索AI在复杂环境中的应用提供了参考。

实验与评估

在探讨语言模型是否能作为基于文本的世界模拟器的研究中，实验与评估是验证理论假设和技术实现的关键步骤。

GPT-4作为OpenAI最新的大型语言模型，其在模拟任务上的表现是本研究的焦点。在BYTESIZED32-State-Prediction数据集上的测试结果显示，GPT-4在预测状态转换方面取得了一定的成功，但也暴露出了一些局限性。尽管GPT-4能够准确预测一些简单的状态转换，但在涉及复杂逻辑和需要深层次推理的任务上，其表现并不理想。例如，在需要算术运算、常识判断或科学知识的状态转换中，GPT-4的准确率明显下降。

表4：BYTESIZED32-SP数据集子集上人类注释器和GPT-4的准确性之间的比较。对转换进行采样，以将GPT-4性能标准化为50%（如果可能的话）和注释器的任务是对完整的转换函数F进行建模并输出完整的状态。

研究中将状态转换分为两类：动作驱动的转换和环境驱动的转换。动作驱动的转换指的是由玩家或AI代理的动作直接引起的状态变化，而环境驱动的转换则是由游戏内部逻辑和规则自动产生的状态变化。GPT-4在动作驱动的转换上表现较好，这可能是因为这类转换通常更直接、更符合模型在预训练过程中学到的模式。然而，在环境驱动的转换上，模型的表现就不那么稳定，特别是当转换涉及到游戏内部复杂逻辑时。

实验结果对于理解当前语言模型在模拟复杂世界状态方面的能力具有重要意义。它揭示了GPT-4等模型在处理复杂交互和非直观逻辑时的局限性，同时也指出了未来研究的方向，如模型训练过程中对环境逻辑的更好理解和内化。此外，实验结果还表明，提供详细的游戏规则和上下文信息对于提高模型的预测准确性至关重要。这强调了在设计类似任务时，对模型输入信息质量的重视。

这部分研究不仅为我们提供了GPT-4在模拟基于文本的虚拟环境中的能力的直接证据，也为未来在这一领域的研究提供了宝贵的经验和启示。

结果分析

在探索语言模型是否能作为基于文本的世界模拟器的研究中，结果分析是揭示模型性能和潜在应用价值的关键环节。

图2：在GPT-4中，在人工编写规则的条件下，作为被修改属性的函数的全状态转换（顶部）、动作驱动转换（中间）和环境驱动转换（底部）的模拟性能。x轴表示特定的对象特性，y轴表示性能（0-100%）。错误分为不正确的值和未更改的值。每个属性的含义见表7。

GPT-4在模拟基于文本的世界时，对于简单的属性转换表现出了较高的准确性，例如，处理布尔值属性的变化。然而，当转换涉及更复杂的属性时，如需要进行算术运算或涉及深层次逻辑推理的属性，GPT-4的表现就显得不那么稳定。特别是在模拟那些需要综合多个状态和变量来预测结果的场景时，GPT-4的准确率有明显下降。

研究发现，GPT-4在需要算术运算、常识判断或科学知识的状态转换中，错误类型主要分为两类：一是将属性设置为错误的值，二是未能改变属性值。这些错误暴露了GPT-4在处理需要高级认知能力的任务时的局限性。例如，在模拟温度变化或物理反应时，GPT-4可能无法准确计算或预测状态的变化，这可能是因为这些任务超出了模型在预训练数据中学到的模式。

在预测游戏进度方面，GPT-4展现了一定的能力，能够在大多数情况下正确预测游戏的得分、游戏是否结束以及玩家是否获胜。然而，当没有提供游戏规则的上下文信息时，模型的预测准确性显著下降。这表明，为了提高预测的准确性，向模型提供详细的游戏规则和上下文信息是至关重要的。

GPT-4在模拟基于文本的虚拟环境中的能力有其明显的局限性，尤其是在处理复杂属性转换和需要高级认知能力的任务时。这些结果为未来的研究提供了宝贵的经验和启示，指出了提高模型性能和应用范围的潜在方向。

结论与展望

大型语言模型（LLMs）如GPT-4在作为基于文本的世界模拟器方面展现了一定的潜力。它们能够在一定程度上理解和预测文本游戏中的状态转换，尤其是在动作驱动的转换中表现较好。然而LLMs在处理需要复杂推理、算术运算、常识判断或科学知识的环境驱动转换时，准确性显著下降。这表明LLMs在理解游戏内部逻辑和规则方面还存在局限性。

未来的研究可以从以下几个方向进行探索和改进：

1.增强模型的推理能力：通过改进训练算法和数据集，使模型能够更好地理解和模拟复杂的逻辑和规则。

2.优化上下文信息的利用：提供更丰富的上下文信息，帮助模型更准确地预测状态转换，尤其是在环境驱动的转换中。

3.提升模型的常识和科学知识：结合外部知识库或专家系统，提高模型在特定领域内的表现。

4.探索新的模型架构：开发新的模型架构，特别是那些能够更好地处理序列数据和时间依赖性的模型。

5.跨模态学习：结合视觉、听觉等其他模态的信息，提高模型对环境的整体理解。

6.安全性和伦理考量：在模型设计和应用中加入更多的安全性和伦理考量，确保AI系统的决策对人类社会是有益的。

随着技术的进步，我们有理由相信，语言模型将在模拟和理解我们的世界中扮演越来越重要的角色。

限制与伦理考量

研究中使用的大型语言模型（LLMs），GPT-4尽管在多个领域展现出了卓越的性能，但它们在模拟复杂世界状态方面仍有局限。模型的内部知识是截至到某个时间点的，这意味着它们在处理最新信息或者未被预训练数据覆盖的情况时可能会表现不佳。此外，LLMs在处理需要高级认知能力的任务时，如涉及复杂逻辑推理、算术运算、常识判断或科学知识的状态转换，准确性和可靠性仍有待提高。

研究中所使用的数据集BYTESIZED32-State-Prediction虽然覆盖了多种文本游戏和状态转换，但这些游戏和转换可能无法完全代表现实世界的复杂性。因此，模型在这些游戏中的表现可能无法直接推广到现实世界的模拟。

在伦理问题方面，研究团队认为没有预见到他们的工作会立即产生伦理或社会影响。然而他们承认，作为LLM应用所提出的LLM-Sim任务可能会在某种程度上受到用户选择的特定LLM引入的错误信息和幻觉的影响。他们的工作强调了使用LLMs作为基于文本的世界模拟器的问题。在下游任务中，如游戏模拟，LLMs可能会生成误导性或非事实信息。例如，如果模拟器建议烧毁房屋以煮沸水，他们的工作并不阻止这一点，也不评估这种潜在危险建议的伦理含义。因此他们认为这些应用程序既不适合也不安全地部署到直接与人类互动的环境中，特别是儿童，例如在教育环境中。他们敦促研究人员和从业者以谨慎的方式使用我们提出的任务和数据集。（END）

参考资料：https://arxiv.org/pdf/2406.06485

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

语音模型可以作为基于文本的世界模拟器吗？GPT-4还不行

独角也有噬元兽