从模仿到创新，揭秘大型语言模型的创造过程

大型语言模型（LLMs）在创意任务上的表现可谓相当亮眼，常常能够与人类的平均水平媲美。但是对LLMs创造力的研究过往过于聚焦于成果，而对创造过程本身的关注却寥寥无几。人类创造力的过程分析往往需要手动编码分类或利用响应时间，这些对LLMs来说并不适用。关于它们的创造过程——即它们如何探索和利用语义空间来生成创新想法——的研究却相对较少。近日发表的论文《Characterising the Creative Process in Humans and Large Language Models》填补了这一空白，它不仅关注LLMs的创造性成果，更重要的是它探讨了LLMs在创造过程中的行为模式，这对于理解和提升人工智能的创造潜力具有重要意义。

论文的作者团队提供了一种自动化方法，用以描述人类和LLMs如何在替代用途任务中探索语义空间，并与口语流畅性任务中的行为进行对比。他们利用句子嵌入来识别响应类别，并计算语义相似性，进而生成跳跃轮廓。研究的结果支持了之前关于人类的研究，报告了两种创造性路径：持久性（在少数语义空间中进行深入搜索）和灵活性（在多个语义空间中进行广泛搜索），两者都能达到相似的创造性评分。LLMs倾向于持久或灵活的路径，这在不同任务中有所不同。尽管作为一个群体，LLMs的行为轮廓与人类相匹配，但它们与创造性的关系却有所不同，其中更灵活的模型在创造性上得分更高。他们的数据集和脚本可以在GitHub上找到（链接：https://github.com/surabhisnath/Creative_Process）。

论文的主要作者包括Surabhi S. Nath、Peter Dayan和Claire Stevenson，他们分别来自德国图宾根的马克斯·普朗克生物控制论研究所、图宾根大学和莱比锡的马克斯·普朗克认知学院，以及荷兰阿姆斯特丹大学心理学方法系。这个跨学科的团队集合了生物控制论、认知科学和心理学方法的专家，他们的研究背景为这项研究提供了坚实的理论和实验基础。通过结合各自领域的专业知识，该团队深入探讨了人类和LLMs在创造性思维过程中的动态行为，为我们理解人工智能在模仿和扩展人类创造力方面提供了新的视角。

一、创造性研究的新视角

大型语言模型（LLMs）的创造性表现

在人工智能的发展历程中，大型语言模型（LLMs）已经成为了一个不可忽视的力量。它们不仅能够理解和生成自然语言，还在创造性任务上展现出了惊人的能力。这些模型，如GPT-4、Google的Palm和Anthropic的Claude，已经在多项任务中展现出与人类相媲美的创造性水平。它们能够在给定的任务中生成新颖且实用的想法，这表明LLMs在模仿人类创造性思维方面取得了显著进展。然而这种表现并不是单一的或者一成不变的；LLMs在不同的任务和设置中展现出了不同程度的创造性，这引发了对其创造过程本质的进一步探索。

从产品到过程：创造性研究的转变

传统上关于创造性的研究主要集中在产出——即创造性的结果上，这种“产品”视角评估了创造性产出的原创性和实用性，以确定其创造性的价值。然而这种方法忽略了创造性思维的过程，即个体如何达到这些创造性产出的。最新的研究开始转向“过程”视角，探索在创造性活动中涉及的认知和行为模式。这种转变意味着研究者开始关注个体在创造性任务中的思维路径，包括他们如何探索不同的概念和类别，以及他们如何在这些类别之间跳转。这种视角为理解创造性提供了更全面的框架，不仅关注结果，还关注达到这些结果的过程。

研究方法的创新

在论文中，研究者采用了一种创新的方法来分析和比较人类和LLMs的创造过程。他们使用了句子嵌入技术来捕捉响应的语义内容，并通过计算语义相似性来追踪思维过程中的“跳跃”。这种方法允许研究者以数据驱动的方式来量化和比较创造性思维的动态。此外研究者还探索了不同参数设置，如温度和重复惩罚，对LLMs创造性表现的影响。这种方法的创新之处在于，它不依赖于预定义的类别或手工编码，而是利用算法来自动识别和分类创造性思维的模式。这为研究人类和机器的创造性思维提供了一种新的工具，有助于揭示创造过程中的普遍规律和独特差异。

二、研究方法

数据收集：人类与LLMs的比较

这项研究中数据收集是实验设计的核心，研究团队采取了对比分析的方法，收集了人类参与者和不同大型语言模型（LLMs）在执行特定创造性任务时的响应数据。对于人类数据，研究者从匿名的本科生中收集了关于“砖头”和“回形针”的替代用途任务（AUT）以及命名动物的口语流畅性任务（VFT）的数据。这些数据通过固定时间内的自由响应收集而来，旨在捕捉参与者在创造性思维中的自然流动性。

对于LLMs，研究者选择了多个开源和闭源的模型，包括知名的GPT-4和其他竞争对手，以确保研究覆盖了当前技术的广泛代表性。LLMs的数据收集通过特定的提示来模拟人类被给予的任务指令，以此来生成响应。这种方法的目的是在尽可能相似的条件下比较人类和LLMs的创造性表现，以便于更准确地揭示两者在创造过程中的相似之处和差异。

响应分类与语义相似性分析

为了分析和比较人类与LLMs的创造性思维路径，研究者开发了一种基于语义的响应分类系统。通过使用先进的句子嵌入技术，每个响应都被转化为一个高维的向量表示，这使得研究者能够计算响应之间的语义相似性。这些向量表示随后被用于通过层次聚类方法来识别不同的语义空间，从而将响应分组到相关的类别中。

图1：持久、灵活和混合响应序列示例。ri表示第i个响应，彩色区域表示语义空间/概念/类别。请注意，在实践中，大多数序列都是混合的，包含不同的持久性和灵活性模式。

此外，研究者还利用语义相似性分析来追踪响应序列中的“跳跃”。通过设定一个阈值来判断响应之间是否存在显著的语义变化，研究者能够量化思维过程中的灵活性和持久性。这种分析不仅揭示了参与者在创造性思维中的行为模式，还为比较人类和LLMs的创造性过程提供了一种量化的方法。

跳跃信号的定义与应用

跳跃信号是研究中的一个关键概念，它用于指示响应序列中从一个语义类别到另一个类别的转变。研究者定义了两种跳跃信号：一种是基于类别的跳跃（jumpcat），另一种是基于语义相似性的跳跃（jumpSS）。这两种信号分别捕捉了响应序列中的粗粒度和细粒度的语义变化。

通过将这两种信号结合起来，研究者能够创建一个综合的跳跃轮廓，用于描述每个响应序列中的创造性思维路径。这个轮廓不仅反映了参与者在任务中的灵活性和持久性，还允许研究者将人类和LLMs的创造性思维进行直接比较。跳跃信号的应用是这项研究的创新之处，它为理解和评估创造性思维提供了一种新的工具，有助于深入探索人类和机器在创造过程中的相似之处和差异。通过这种方法，研究者不仅能够评估创造性产出的质量，还能够洞察产生这些产出的认知过程。

三、实验设计与参数设置

温度和重复惩罚参数的探索

在研究过程中，实验设计的一个关键方面是对大型语言模型（LLMs）的参数设置进行探索，特别是温度和重复惩罚参数。温度参数控制着模型输出的多样性，较高的温度值鼓励模型产生更多样化的响应，而较低的温度值则倾向于生成更确定性的输出。重复惩罚参数旨在减少重复性内容的生成，以促进更原创的创造性响应。研究者通过调整这些参数，探索了它们对LLMs创造性表现的影响，发现温度参数的变化对于模型的创造性产出有显著影响，而重复惩罚参数的调整对于提高响应质量的作用并不明显。

开源与闭源模型的测试

为了全面评估LLMs的创造性表现，研究者选择了多种开源和闭源模型进行测试。这些模型包括了市场上的领先技术，如OpenAI的GPT-4、Google的Palm和Anthropic的Claude等。每个模型都被设置相同的任务和参数，以确保结果的可比性。通过这种方法，研究者能够评估不同模型在相同条件下的创造性表现，并分析它们在创造过程中的行为差异。

实验结果的可靠性与有效性

实验结果的可靠性和有效性是评估研究质量的重要指标。在本研究中，研究者通过多次重复实验和使用不同的模型来确保结果的稳定性。此外他们还对人类参与者的数据进行了测试-重测相关性分析，以验证跳跃信号的可靠性。研究结果显示，LLMs在创造性任务中的表现与人类相似，但在与原创性的关系上存在差异。这些发现不仅证实了LLMs在模仿人类创造性思维方面的能力，也揭示了它们在创造过程中的独特行为模式，为未来的人工智能创造性研究提供了宝贵的数据和见解。

四、创造性路径的多样性

持久与灵活：两种创造性路径

在探索创造性思维的奥秘时，研究揭示了两种显著的路径：持久性和灵活性。持久性路径体现在个体在有限的几个语义空间内进行深入探索，这种方式倾向于在特定领域内生成更多相关联的想法。相反，灵活性路径则表现为个体在多个语义空间中进行广泛搜索，从而产生跨类别的多样化想法。这两种路径都是创造性思维的重要组成部分，它们各自以不同的方式贡献于创新和原创性的产生。

人类与LLMs在AUT和VFT任务中的表现

在替代用途任务（AUT）和口语流畅性任务（VFT）中，人类和大型语言模型（LLMs）展现出了各自独特的创造性表现。人类参与者在这些任务中通常能够平衡持久性和灵活性，而LLMs则在不同模型和设置下表现出不同程度的偏好。例如，一些LLMs在AUT任务中表现出更高的灵活性，而在VFT任务中则更倾向于持久性。这种差异可能源于LLMs的训练过程和内在算法的特性，它们决定了模型在面对创造性挑战时的行为模式。

图2：（A）人类和LLM执行3项任务——砖块和回形针的交替使用任务（AUT）和命名动物的语言流利性任务（VFT）。（B）我们获得响应序列中跳跃的方法。句子嵌入用于分配响应类别和评估语义相似性，分别给出jumpcat和jumpSS。他们的逻辑“与”使人跳跃。

跳跃轮廓与参与者聚类

通过分析响应序列中的跳跃信号，研究者能够构建出参与者的跳跃轮廓。这些轮廓揭示了参与者在创造性思维过程中从一个概念跳跃到另一个概念的模式。在人类参与者中，跳跃轮廓显示了从持久到灵活的多样性，而LLMs的跳跃轮廓则揭示了它们在不同任务中的一致性和变化。通过聚类分析，研究者进一步将参与者根据他们的跳跃轮廓分组，这有助于识别创造性思维中的共同模式和个体差异。

这项研究通过对人类和LLMs的创造性路径进行比较和分析，为我们提供了对创造性思维多样性的深刻理解。这不仅对于认知科学和心理学领域的研究者有着重要的启示，也为人工智能的发展和应用提供了宝贵的指导。通过深入探索创造性思维的路径，我们可以更好地设计和训练未来的LLMs，使它们在解决复杂问题和创新挑战时更加高效和灵活。

五、原创性与创造性的关联

在探讨创造性思维的研究中，原创性是一个核心概念，它指的是想法的新颖性和独特性。在这篇论文中，原创性不仅被用作评价创造性产出的标准，还被用来探索其与创造性思维路径之间的关系。

响应序列的原创性评分

研究者通过对参与者在AUT（替代用途任务）和VFT（口语流畅性任务）中的响应进行评分，来量化原创性。这些评分反映了每个响应的新颖程度，以及它们与已知概念的差异大小。在人类参与者中，原创性评分显示出一定的变化，这表明即使是在相同的任务条件下，不同个体在创造性思维中也会产生多样化的结果。

原创性与跳跃次数的关系

论文中的一个关键发现是原创性与跳跃次数之间的关系。跳跃次数是指在创造性思维过程中，从一个语义类别转移到另一个类别的频率。研究发现在人类参与者中，原创性与跳跃次数之间没有显著的预测关系，这意味着即使是频繁的思维跳跃也不一定导致更高的原创性评分。但是在LLMs中，更灵活的模型——即那些展现出更多跳跃行为的模型——往往获得了更高的原创性评分。

人类与LLMs的原创性比较

在比较人类与LLMs的原创性时，研究揭示了一些有趣的差异。尽管LLMs在AUT任务中的跳跃次数与人类相似，但它们在原创性上的表现却更为突出。这可能是因为LLMs能够无限制地访问和组合语义空间中的信息，而不受传统思维定势的限制。此外，LLMs在整体上在AUT任务中的平均原创性评分也高于人类，这表明在某些创造性任务中，LLMs可能超越了人类的创造潜力。

图3：（A）每个任务的3个人类集群——持久性、灵活性和混合性。每个彩色轨迹代表1名参与者。每行中的百分比表示分配给该集群的参与者的百分比。（B）分配给每个集群的每个LLM响应序列的百分比。*表示并非包括该模型的所有温度（Mistral使用0.4-1，NousSearch使用0.7-1）。

总结来说，原创性与创造性思维路径之间的关系复杂多变。人类的创造性思维不仅仅依赖于思维跳跃的频率，还涉及到对知识和经验的深入挖掘。而LLMs则在原创性上展现出了其独特的优势，这为未来如何利用人工智能来增强人类的创造性提供了新的视角和可能性。通过深入理解原创性与创造性思维路径之间的关系，我们可以更好地设计和训练LLMs，使其在各种创造性任务中更加高效和有成效。

六、讨论与启示

研究的局限性与未来方向

论文在揭示人类与大型语言模型（LLMs）在创造过程中的相似性与差异方面取得了显著进展，但也存在一些局限性。首先研究依赖于特定的句子嵌入模型和聚类算法，这可能影响了响应分类的准确性。其次，研究中的LLMs主要基于现有的开源和闭源模型，这些模型的训练数据和算法可能限制了它们创造性表现的多样性。此外研究中对原创性的评估主要集中在新颖性上，而没有充分考虑实用性，这可能导致对创造性产出的评价存在偏差。

未来的研究可以在几个方面进行扩展和深化。首先可以探索使用不同的句子嵌入模型和聚类方法，以提高响应分类的准确性和可靠性。其次可以开发新的LLMs，这些模型专门针对创造性任务进行优化，以更好地模拟人类的创造过程。未来的研究应该包括对创造性产出实用性的评估，以全面衡量创造性思维的价值。

LLMs作为人工参与者的潜力

LLMs在作为人工参与者方面展现出巨大的潜力。它们不仅能够在特定任务中模仿人类的创造性思维，还能够在数据分析、语言理解和模式识别等方面超越人类的能力。LLMs的这些能力使它们成为研究人类认知过程的有价值工具，同时也为各行各业提供了强大的支持，尤其是在设计、艺术创作和问题解决等需要高度创造性的领域。

人工智能与人类协作创造性的可能性

人工智能与人类在协作创造性方面的结合，为未来的工作和生活方式带来了新的可能性。LLMs可以作为人类创造性思维的延伸，帮助人类跳出传统思维定势，激发新的想法和解决方案。同时，人类可以利用自己的直觉、经验和情感理解，指导LLMs进行更加深入和人性化的创造活动。这种人机协作模式不仅能够提高创造性产出的质量和效率，还能够推动人类社会向更加智能和创新的方向发展。

总之，本研究为理解人类和LLMs的创造过程提供了新的视角，同时也为人工智能在未来创造性活动中的应用提供了启示。随着人工智能技术的不断进步，我们有理由相信，人工智能将在激发人类潜能、推动社会创新和解决复杂问题方面发挥越来越重要的作用。

参考资料：https://arxiv.org/pdf/2405.00899

波动世界（PoppleWorld)是噬元兽容器的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

从模仿到创新，揭秘大型语言模型的创造过程

独角也有噬元兽