《自然》科学周刊：ChatGPT任何“思考”？心理学和神经科学破解

意识科技是人工智能国王的权杖。人工智能的发展不仅依赖于算法和计算能力，还需要理解和模拟人类意识和认知的能力。最近科学期刊《自然》聚焦于这个领域的技术博文频发，是人工智能的发展进入初试深水区阶段的结果。

随着人工智能技术的飞速发展，LLMs已经渗透到我们生活的方方面面，从自动回复邮件到辅助编写代码，它们的应用无处不在。但是尽管LLMs在功能上取得了巨大成功，它们的“思考”过程——即它们如何处理和生成语言——仍然充满未知。Matthew Hutson的科技博文《How does ChatGPT ‘think’? Psychology and neuroscience crack open AI large language models》在《自然》科学期刊上的发表，标志着科学界对这一主题的重视和探索。

在这篇文章中，作者Matthew Hutson探讨了大型语言模型（LLMs）的工作原理，以及心理学和神经科学如何帮助我们理解这些人工智能系统。文章提到，研究人员正在尝试逆向工程人工智能，并扫描LLMs的“大脑”以了解它们在做什么，以及如何和为什么这样做。

理解LLMs的“思考”过程对现代科技至关重要。它不仅关系到我们如何更有效地利用这些工具，还涉及到我们如何确保它们的使用是安全和负责任的。心理学和神经科学提供了独特的视角和方法，帮助我们解码LLMs的内部机制，从而推动人工智能的发展进入一个更加透明和可控的新阶段。

01.LLMs的工作原理

大型语言模型（LLMs），如ChatGPT，它们通过模拟人类的语言理解和生成能力，能够执行各种复杂的语言任务。但要理解LLMs的工作原理，我们需要从它们的基本构成开始。

LLMs由数十亿甚至数千亿个参数构成，这些参数在训练过程中被调整以捕捉和模拟语言的复杂性。参数是模型中的可调整变量，它们决定了模型如何处理输入数据并生成输出。LLMs的核心是神经网络层，这些层模仿人脑中神经元的结构和功能。每一层都负责从输入数据中提取特定类型的特征，随着数据在网络中的传递，这些特征逐渐合成更高级的语言结构。

文章强调了LLMs的复杂性，它们是由数百亿个参数组成的，这些参数是AI内部用来做决策的变量。这些模型被称为“随机鹦鹉”，因为它们通过概率性地结合之前遇到的文本模式来写作，而不理解它们所写内容的实质。但是一些研究者认为LLMs不仅仅是在模仿，它们还展现出了推理和其他惊人的类人能力。

为了解决LLMs的不透明性问题，研究人员转向了可解释人工智能（XAI）领域，开发了一系列工具和技巧来帮助逆向工程AI系统。这些工具包括突出显示导致算法将图像标记为猫的图像部分，或让软件构建一个简单的“决策树”来近似AI的行为。这有助于解释AI为什么会做出某些决策，例如推荐假释一名囚犯或得出特定的医疗诊断。

LLMs有时被比喻为“随机鹦鹉”，因为它们生成文本的方式看起来像是在模仿它们在大量文本数据中看到的模式。这种模式识别能力使得LLMs能够生成语法正确、语义连贯的文本。然而这种“写作”并不是基于对文本内容的真正理解，而是基于统计学习——模型通过分析大量的文本数据，学会了哪些词汇和短语通常会一起出现。

图1：研究人员将模型的行为描述为角色扮演——做的不仅仅是鹦鹉学舌，但还不够计划。

文章还提到了Anthropic公司的一个研究团队，他们在2023年的一项研究中尝试解释聊天机器人说出某些话的原因。研究人员使用了一种特殊技术来揭示LLM在回答问题时使用的训练数据。例如，当他们询问LLM是否同意被关闭时，他们发现它借鉴了几个与生存主题相关的源材料来构成一个有说服力的回应。

此外，哈佛大学的计算机科学家Kenneth Li和他的团队训练了一个LLM来玩奥赛罗棋，他们发现这个模型构建了一个基于文本描述的游戏内部地图。这表明LLMs可能会构建出对世界的模型，即它们训练数据所源自的3D现实的完整视觉。

LLMs的这种工作方式引发了关于它们是否真正“理解”语言的讨论。尽管LLMs能够生成看似有深度的文本，但它们缺乏人类的常识和世界知识。这就是为什么LLMs有时会生成不准确或荒谬的回答，因为它们的“知识”仅限于训练数据中的模式。

02.心理学和神经科学的角色

在探索大型语言模型（LLMs）如ChatGPT的“思考”过程中，心理学和神经科学提供了独特的视角和工具。这些学科的方法不仅帮助我们理解人类大脑的工作原理，也为解码人工智能的复杂性提供了框架。

心理学和神经科学的研究方法通常涉及行为实验、脑成像技术和计算模型。在LLMs的研究中，这些方法被用来观察模型在处理语言任务时的表现，以及它们内部的活动模式。例如，通过分析模型在特定任务上的表现，研究者可以推断出模型是如何处理信息的，哪些神经网络层被激活，以及这些激活如何相互作用来生成响应。此外心理学实验设计，如双盲测试，也被用来评估模型的偏见和推理能力。

Othello-GPT实验是一个典型的案例，展示了如何将心理学和神经科学的方法应用于LLMs。在这个实验中，研究者训练了一个LLM来玩奥赛罗棋，一个涉及策略和预测的复杂游戏。通过让模型阅读和预测成千上万的奥赛罗棋局，研究者能够观察到模型是如何从文本描述中构建出棋盘的内部表示。这种方法类似于神经科学中的功能性磁共振成像（fMRI），它可以揭示大脑在执行特定任务时的活动区域。

通过这些方法，心理学和神经科学不仅帮助我们理解LLMs的内部机制，还为改进这些模型提供了指导。例如，如果发现模型在某些任务上的表现不佳，研究者可以调整训练过程，或者修改模型的结构来提高其性能。同样，如果模型显示出偏见，可以通过这些方法来识别和减少这些偏见。

心理学和神经科学的这些研究方法为我们提供了一种手段，不仅可以测试和改进LLMs，还可以深入理解它们的“思考”过程。这对于开发更加智能、公平和可靠的人工智能系统至关重要。

03.可解释人工智能（XAI）

XAI的核心目标是提高AI系统的透明度，使得非专家用户也能理解AI的决策过程。这不仅有助于增强用户对AI系统的信任，还能促进AI的公平性、可靠性和安全性。具体来说，XAI试图揭示以下几个方面：

决策依据：AI是如何从输入数据中提取特征，并基于这些特征做出决策的。预测解释：AI的预测结果背后的逻辑和原因。错误诊断：当AI系统出错时，能够追踪错误的来源，以便进行调整和改进。政策制定：为监管机构提供必要的信息，以制定合理的AI监管政策。

尽管XAI的目标明确，但在实际操作中面临着多重挑战。LLMs的复杂性和“黑盒”特性使得它们的内部工作机制难以被直接解读。以下是XAI在理解LLMs方面面临的一些主要挑战：

模型复杂性：LLMs通常包含数十亿个参数，这使得理解每个参数在决策中的作用变得极其困难。数据量巨大：LLMs的训练涉及大量数据，追踪模型的学习过程需要处理和分析这些庞大的数据集。抽象概念：LLMs在处理语言时涉及许多抽象概念，如语义、语境和隐喻，这些概念的解释难以量化。用户多样性：不同的用户对XAI的需求各不相同，设计既满足专家也满足非专家需求的解释系统是一大挑战。平衡透明度和性能：过度的透明度可能会影响模型的性能，找到二者之间的平衡点是XAI的关键。

尽管OpenAI和Anthropic等公司为可解释AI（XAI）领域做出了显著贡献，但仍需进行更多研究来解开聊天机器人的工作原理。研究人员认为，发布LLMs的公司应确保进行这些研究，以便不仅仅是缺乏责任感的“大团体”。虽然存在挑战，XAI对于构建未来的AI系统至关重要。它不仅能够帮助用户更好地理解和信任AI，还能够推动AI技术的健康发展，确保AI的决策过程公正、合理且可审计。

04.LLMs的行为和推理能力

大型语言模型（LLMs）如ChatGPT的行为和推理能力一直是研究的热点,这些模型是否真正具备推理能力，以及它们是如何展现这种能力的，是当前科技界尤其关注的问题。

“思维链提示”技术是一种新兴的方法，用于揭示LLMs的思考过程。这种技术通过引导模型展示其解决问题的逐步推理，使我们能够更好地理解模型是如何逼近答案的。具体来说，研究者会首先提供一个问题，并附上一系列逻辑步骤来解答这个问题，然后要求模型在回答类似问题时也提供类似的逻辑步骤。这样做的结果是，模型不仅给出答案，还展示了达到该答案的思考路径，从而提供了对模型“思考”过程的洞察。

图2：谷歌团队在 2022 年进行的一项研究引入了“思维链提示”一词来描述让LLMs展示其“思维”的一种方法。

“思维链提示”技术是一种通过展示用户如何得出答案来帮助聊天机器人生成正确回应的方法。通过这种方式，聊天机器人会模仿用户的逻辑。纽约大学的计算机科学家Sam Bowman和他的同事发现，思维链提示的解释可能并不真实反映模型的实际操作。研究人员首先故意给他们的模型一个偏见，例如给它们一系列答案总是选项A的多项选择题。然后他们提出了一个最终的测试问题。模型通常会选择A作为答案——无论是否正确——但几乎从不说它们选择这个答案是因为答案通常是A。相反，它们会编造一些“逻辑”来解释它们的回答——就像人类经常有意识或无意识地做的那样。

这种现象类似于隐性社会偏见，有时使招聘人员雇佣看起来或行为像他们的候选人，即使他们声称成功的申请者只是最合适的人选。Bowman的论文显示了LLMs中类似的社会偏见。

但是这并不意味着思维链提示技术毫无用处。牛津互联网研究所的Sandra Wachter表示，这种技术仍然有用。但她也提醒用户应该谨慎对待聊天机器人，就像与人交谈时保持一定的健康怀疑态度一样。

关于LLMs是否具有推理能力，目前的研究表明，这些模型至少在某种程度上能够模拟推理过程。LLMs能够在给定的上下文中应用逻辑规则，解决问题，并生成连贯的解释。然而这种推理能力并不意味着模型具有真正的理解或意识。LLMs的推理更多是基于统计规律和训练数据中的模式，而非真正的逻辑推理。尽管如此，LLMs在处理复杂任务时展现的推理能力仍然令人印象深刻，并为未来AI的发展提供了可能的方向。

通过“思维链提示”技术和其他相关研究，我们开始揭开LLMs的行为和推理能力的神秘面纱。这些发现不仅对于理解LLMs的内部工作机制至关重要，也对于设计更加智能和可靠的AI系统具有重要意义。

05.因果追踪和神经网络编辑

因果追踪技术是一种先进的分析方法，它允许研究者识别和理解LLMs内部决策过程中的因果关系。这种技术通过分析模型的内部激活模式，帮助研究者揭示模型在处理特定输入时哪些参数起到了决定性作用。例如，当LLMs生成文本回答时，因果追踪可以用来确定哪些神经元被激活，并且这些激活是如何相互作用来形成最终的输出。这不仅增加了模型的透明度，也为模型的进一步优化提供了可能。

编辑神经网络是指对LLMs的神经元或参数进行调整，以修正错误或更新信息。这种编辑可以是微观的，比如调整单个神经元的权重；也可以是宏观的，比如改变整个层的结构。编辑的目的是在不重新训练整个模型的情况下，快速适应新的数据或修正已知的错误。这种方法对于维护LLMs的准确性和时效性至关重要，尤其是在处理动态变化的信息时。

通过因果追踪和神经网络编辑，研究者能够更深入地理解LLMs的工作原理，并在必要时进行精确的调整。这些技术的应用不仅提高了LLMs的性能，也为构建更加可靠和可解释的AI系统奠定了基础。

文章还提到了其他研究人员如何利用神经科学的方法来探索LLMs的内部工作原理。例如，卡内基梅隆大学的计算机科学家Andy Zou及其合作者通过审问LLMs并观察它们的“神经元”激活来研究聊天机器人如何欺骗。他们告诉LLM多次说谎或说实话，并测量神经元活动的差异，创建了真实性的数学表示。然后，每当他们向模型提出一个新问题时，他们可以查看其活动并估计它是否在说实话——在一个简单的测谎任务中准确率超过90%。Zou表示，这样的系统可以用来实时检测LLMs的不诚实行为，但他希望首先提高其准确性。

研究人员进一步干预了模型的行为，在询问问题时增加了这些真实性模式到其激活中，增强了其诚实性。他们还对其他几个概念进行了类似的操作：他们可以使模型更加追求权力、更快乐、更无害、更有性别偏见等。

Bau及其同事还开发了扫描和编辑AI神经网络的方法，包括他们称之为因果追踪的技术。他们的方法是给模型一个提示，例如“Michael Jordan打的是”，让它回答“篮球”，然后给它另一个提示，例如“blah blah blah打的是”，并观察它说出其他东西。然后他们恢复第一个提示产生的一些内部激活，直到模型对第二个提示说“篮球”，以查看神经网络的哪些区域对该回应至关重要。换句话说，研究人员希望确定AI“大脑”的哪些部分使其以特定方式回答。

该团队开发了一种通过调整特定参数来编辑模型知识的方法，以及一种批量编辑模型所知内容的方法。他们说，这些方法在你想要修正不正确或过时的事实而不需要重新训练整个模型时会很方便。他们的编辑是具体的（它们没有影响到其他运动员的事实），但又能很好地泛化（即使问题被改述，它们也会影响答案）。

Bau表示，人工神经网络的好处在于我们可以进行神经科学家只能梦想的实验。“我们可以查看每一个神经元，我们可以运行网络数百万次，我们可以进行各种疯狂的测量和干预，并且滥用这些东西。而且我们不需要获得同意书。”他说，这项工作引起了希望从中获得对生物大脑洞察的神经科学家的关注。

06.结尾

作者Matthew Hutson拥有布朗大学的认知神经科学学士学位和麻省理工学院的科学写作硕士学位，他曾在MIT的神经影像实验室工作两年，之后在费米实验室和Sally Ride Science工作了一段时间。Hutson是《纽约客》的特约撰稿人，他的文章也出现在《科学》、《自然》、《连线》、《大西洋月刊》、《华尔街日报》等多个出版物上。本文Matthew Hutson和我们探讨了大型语言模型（LLMs）如ChatGPT的“思考”过程，以及心理学和神经科学如何帮助我们解开这些先进模型的复杂性。通过深入分析LLMs的工作原理、可解释人工智能（XAI）的挑战、LLMs的行为和推理能力，以及因果追踪和神经网络编辑技术，让我们得到了对这些模型内部运作的更深刻理解。

理解LLMs的“思考”过程对于人工智能的未来发展至关重要。它不仅能够帮助我们设计出更智能、更可靠的AI系统，还能够确保这些系统的决策过程是透明和公正的。此外随着技术的进步，LLMs在社会中的应用将越来越广泛，从而对教育、医疗、法律等领域产生深远影响。(END)

参考资料：https://www.nature.com/articles/d41586-024-01314-y

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

《自然》科学周刊：ChatGPT任何“思考”？心理学和神经科学破解

独角也有噬元兽