行为经济学的大模型--内部有效性和心智模型的启发

行为经济学和实验经济学是现代经济学的重要分支，旨在通过实验和观察来理解人类决策行为的复杂性。传统经济学假设人类是完全理性的决策者，但行为经济学挑战了这一假设，认为人类的决策往往受到心理偏差、情感和社会影响的驱动。实验经济学则通过设计和实施实验来验证经济理论，探索人类行为的规律。

行为经济学的研究涵盖了广泛的主题，包括风险和不确定性、时间偏好、社会偏好和市场行为等。实验经济学则通过控制实验条件，确保结果的内部效度，从而提供可靠的数据支持经济理论的发展。这两个领域的研究不仅丰富了经济学理论，还为政策制定和商业实践提供了重要的洞见。

随着人工智能技术的迅猛发展，生成式人工智能（AI）和大型语言模型（LLMs）在行为和实验经济学中的应用前景广阔。LLMs，如GPT-4，能够生成类似人类的文本和对话，具有强大的自然语言处理能力。这些技术在社会科学研究中具有巨大的潜力，能够在实验设计、实施和分析的各个阶段提供支持。

首先LLMs可以生成清晰、简明的实验指示和理解检查，确保参与者准确理解实验设置和任务要求。其次LLMs可以实时监控参与者的行为，提供即时反馈和支持，减少实验中的不合规行为。此外，LLMs还可以分析实验数据，检测潜在的偏差和异常，确保数据的准确性和可靠性。

通过将LLMs集成到行为和实验经济学中，研究人员可以显著提高实验的内部效度，减少人为干预和误差，从而获得更为准确和可靠的研究结果。这不仅有助于验证经济理论，还可以探索新的行为模式和心理模型，推动社会科学研究的创新和发展。

近日发表的研究《Large Language Models for Behavioral Economics Internal Validity and Elicitation of Mental Models》探讨将生成式AI，特别是LLMs整合到行为和实验经济学中，以增强实验的内部效度和引出心理模型的潜力。通过利用AI工具，研究人员可以改进对关键排除限制的遵守，特别是确保心理模型的内部效度，这通常需要在人为干预的激励机制中进行。

这项研究具有重要意义。它展示了生成式AI在社会科学研究中的应用前景，提供了新的研究方法和工具。通过优化实验的内部效度，研究为行为经济学和实验经济学的研究提供了更为可靠的数据支持。研究结果有助于推动社会科学研究的创新，探索新的行为模式和心理模型，为政策制定和商业实践提供重要的洞见。

作者Brian Jabarian 是芝加哥大学布斯商学院的研究员，专注于行为经济学和实验经济学的研究。他在巴黎经济学院获得经济学博士学位，并在巴黎索邦大学获得哲学博士学位。此外，他还拥有艾克斯-马赛大学的经济学硕士学位和伦敦经济学院的科学哲学硕士学位。

Jabarian 的研究通过行为理论、计算方法和实验设置，探索人类在不同决策环境中的行为。他在多个研究中心和网络中担任研究员，包括芝加哥大学应用人工智能研究中心和 CESifo 研究网络。他的研究成果在多个国际期刊上发表，并获得了广泛的认可和赞誉。

生成式AI在行为经济学中的应用

生成式人工智能（Generative AI）是一种能够生成新内容的人工智能技术。与传统的AI不同，生成式AI不仅能够识别和分类数据，还能够创造新的数据。这种技术的核心是大型语言模型（Large Language Models, LLMs），如GPT-4，它们通过大量的文本数据进行训练，能够生成类似人类的文本和对话。

LLMs的基本原理是基于深度学习和神经网络技术。它们通过分析大量的文本数据，学习语言的结构和模式，从而能够生成连贯且有意义的文本。LLMs的训练过程包括两个主要步骤：预训练和微调。在预训练阶段，模型通过大量的无监督学习，掌握语言的基本结构和语法。在微调阶段，模型通过有监督学习，针对特定任务进行优化，以提高其在特定领域的表现。

生成式AI在社会科学研究中具有巨大的潜力，能够在多个方面提供支持和创新。首先，生成式AI可以显著提高实验设计的效率和准确性。通过生成清晰、简明的实验指示和理解检查，研究人员可以确保参与者准确理解实验设置和任务要求，从而减少实验中的误差和偏差。

生成式AI可以增强实验的内部效度。通过实时监控参与者的行为，生成式AI可以提供即时反馈和支持，确保参与者遵守实验规则，减少不合规行为。例如，AI可以检测参与者是否打开新标签页获取外部信息，或是否复制粘贴内容，从而确保实验数据的真实性和可靠性。

此外，生成式AI还可以在数据分析中发挥重要作用。通过分析实验数据，AI可以检测潜在的偏差和异常，确保数据的准确性和可靠性。AI还可以生成合成数据，模拟不同的实验条件，从而帮助研究人员探索不同的行为模式和心理模型。

生成式AI在实验设计、实施和分析中的应用可以显著提高实验的效率和准确性。以下是生成式AI在这些方面的具体应用。

1.实验设计

生成实验指示：生成式AI可以生成清晰、简明的实验指示，确保参与者准确理解实验设置和任务要求。例如，AI可以根据参与者的语言水平和教育背景，生成多种版本的指示和理解检查，确保所有参与者都能理解实验内容。

优化实验条件：AI可以生成不同的实验条件，帮助研究人员探索不同的行为模式和心理模型。例如，AI可以生成不同类型的故事叙述，作为心理提示，促使参与者从“天真思维”转向“批判性思维”。

2.实验实施

实时监控参与者行为：生成式AI可以实时监控参与者的行为，提供即时反馈和支持，确保参与者遵守实验规则。例如，AI可以检测参与者是否打开新标签页获取外部信息，或是否复制粘贴内容，从而确保实验数据的真实性和可靠性。

提供即时支持：AI可以通过聊天机器人等方式，提供即时支持和解答参与者的问题，确保参与者准确理解实验任务，减少不合规行为。

3.数据分析

检测数据偏差和异常：生成式AI可以分析实验数据，检测潜在的偏差和异常，确保数据的准确性和可靠性。例如，AI可以分析参与者的输入质量，检测是否存在抄袭或其他不合规行为。

生成合成数据：AI可以生成合成数据，模拟不同的实验条件，帮助研究人员探索不同的行为模式和心理模型。例如，AI可以生成不同类型的故事叙述，作为心理提示，促使参与者从“天真思维”转向“批判性思维”。

通过将生成式AI集成到实验设计、实施和分析中，研究人员可以显著提高实验的效率和准确性，探索新的行为模式和心理模型，推动社会科学研究的创新和发展。生成式AI不仅能够提高实验的科学严谨性、透明性和可重复性，还能够为研究人员提供更深入的行为洞察，为政策制定和商业实践提供重要的支持。

优化实验的内部效度

内部效度是指实验设计和实施过程中，确保实验结果的准确性和可靠性，排除外部因素对实验结果的影响。高内部效度意味着实验结果可以被认为是由实验条件引起的，而不是由其他外部因素引起的。在行为经济学和实验经济学中，内部效度尤为重要，因为这些领域的研究往往涉及复杂的人类行为和心理过程，任何外部干扰都可能导致实验结果的偏差。

内部效度的重要性在于它确保了实验结果的可信性和可重复性。只有在高内部效度的情况下，研究人员才能自信地得出结论，并将这些结论应用于更广泛的理论和实践中。缺乏内部效度的实验结果可能会导致错误的结论，从而影响政策制定和商业决策。因此，优化实验的内部效度是行为经济学和实验经济学研究的核心任务之一。

为了确保实验的内部效度，研究人员需要遵守四个关键排除限制：可观察性、合规性、SUTVA（稳定单元处理值假设）和统计独立性。这些限制旨在排除外部因素对实验结果的影响，确保实验条件的纯粹性和一致性。

可观察性：可观察性要求实验的处理和控制条件必须清晰可见，并且能够被准确记录。这意味着所有参与者的结果、处理分配和特征都必须是可观察和准确记录的。只有这样，研究人员才能确保实验条件的一致性，并准确评估处理效果。

合规性：合规性要求参与者必须严格遵守实验协议。任何不合规行为都会导致测量误差，影响因果推断的有效性。合规性排除限制假设每个被分配到处理或控制组的单位都严格遵守该分配。

SUTVA（稳定单元处理值假设）：SUTVA要求一个参与者接受的处理不应影响另一个参与者的结果。这在涉及博弈论、拍卖理论或社会规范等概念的在线实验中尤为具有挑战性，因为参与者可能会间接地相互影响。

统计独立性：统计独立性要求处理的分配独立于任何可能影响结果的其他因素。这意味着处理分配必须是随机的，消除选择偏差，确保观察到的结果差异仅能归因于处理效果。

生成式AI，特别是大型语言模型（LLMs），在增强对关键排除限制的遵守方面具有显著潜力。以下是生成式AI在这四个方面的具体应用。

可观察性：生成清晰指示和理解检查

生成式AI可以生成清晰、简明的实验指示和理解检查，确保参与者准确理解实验设置和任务要求。例如，AI可以根据参与者的语言水平和教育背景，生成多种版本的指示和理解检查，确保所有参与者都能理解实验内容。通过生成个性化的指示和检查，AI可以提高参与者的理解和参与度，减少实验中的误差和偏差。

此外，AI可以实时监控参与者的行为，提供即时反馈和支持，确保参与者遵守实验规则。例如，AI可以检测参与者是否打开新标签页获取外部信息，或是否复制粘贴内容，从而确保实验数据的真实性和可靠性。这种实时监控和反馈机制有助于维护实验条件的一致性，确保处理和控制条件的清晰可见和准确记录。

合规性：实时支持和监控参与者行为

合规性是确保实验结果准确性和可靠性的关键。生成式AI可以通过实时支持和监控参与者行为，显著提高合规性。例如，AI可以通过聊天机器人等方式，提供即时支持和解答参与者的问题，确保参与者准确理解实验任务，减少不合规行为。

此外，AI可以设计算法，实时监控参与者的行为，检测是否存在不合规行为。例如，AI可以检测参与者是否打开新标签页获取外部信息，或是否复制粘贴内容，从而确保实验数据的真实性和可靠性。如果检测到不合规行为，AI可以及时提醒参与者，确保他们遵守实验规则。这种实时监控和反馈机制有助于减少不合规行为，提高实验的内部效度。

SUTVA：创建高度控制的虚拟环境

SUTVA（稳定单元处理值假设）要求一个参与者接受的处理不应影响另一个参与者的结果。生成式AI可以通过创建高度控制的虚拟环境，帮助维持SUTVA。在这些虚拟环境中，参与者与模拟代理而非真实人互动，从而减少参与者之间的相互影响。

例如，EVE（虚拟环境中的实验）是一个开源框架，允许研究人员创建虚拟3D环境来运行实验。通过将AI集成到这些虚拟环境中，研究人员可以确保SUTVA条件的满足，减少参与者之间的交叉影响，维护个体处理的完整性。同时，AI还可以管理和自动化随机化过程，确保处理分配是真正随机的，并且不受外部因素影响。

统计独立性：自动化随机化过程

统计独立性要求处理的分配独立于任何可能影响结果的其他因素。生成式AI可以通过自动化随机化过程，确保独立性。AI可以使用透明的算法生成随机分配，并审计这些算法以确保公平和独立。

此外，AI可以分析数据中的模式，检测可能的偏差，并在需要时调整随机化过程或标记数据以供进一步审查。例如，AI可以分析参与者的输入质量，检测是否存在抄袭或其他不合规行为。如果检测到偏差，AI可以及时调整随机化过程，确保处理分配的独立性和公平性。

通过将生成式AI集成到实验设计、实施和分析中，研究人员可以显著提高实验的内部效度，确保对关键排除限制的遵守。这不仅有助于验证经济理论，还可以探索新的行为模式和心理模型，推动社会科学研究的创新和发展。

优化实验的内部效度是行为经济学和实验经济学研究的核心任务之一。生成式AI，特别是大型语言模型（LLMs），在增强对关键排除限制的遵守方面具有显著潜力。通过生成清晰的实验指示、实时支持和监控参与者行为、创建高度控制的虚拟环境以及自动化随机化过程，生成式AI可以显著提高实验的效率和准确性，增强实验的内部效度。

案例研究

在行为经济学和实验经济学的研究中，心理模型的内部效度和引出是一个重要的研究方向。心理模型是指人们在决策过程中使用的内在认知结构和过程，它们影响着人们如何理解和应对复杂的社会和经济问题。然而，传统的实验方法在测量和引出心理模型时面临诸多挑战，如参与者的理解偏差、实验条件的控制难度以及数据的真实性和可靠性问题。

为了应对这些挑战，论文提出了利用生成式人工智能（AI），特别是大型语言模型（LLMs），来优化实验设计和实施，增强心理模型的内部效度和引出。论文的案例研究旨在展示生成式AI在这一领域的具体应用和效果，通过创建引人入胜的故事环境、实时监控参与者行为和输入质量，以及使用LLM驱动的检测工具检查抄袭，来提高实验的准确性和可靠性。

在实验设计中，创建一个引人入胜且自然的故事环境对于提高参与者的参与度和实验数据的真实性至关重要。生成式AI可以通过生成不同类型的故事叙述，模拟社交媒体和传统媒体平台的内容，来创建一个熟悉且自然的实验环境。

例如，在论文的案例研究中，研究人员利用LLMs生成了不同长度和风格的故事叙述，模仿Twitter、Facebook和报纸等平台的内容。为了确保环境的真实性，研究人员还使用了StyleGAN2等图像生成模型，生成虚假的用户头像，并使用Zeeob等社交媒体格式模拟器生成特定媒体格式的用户界面设计元素，如字体、行距和颜色等。

这种方法不仅提高了参与者的参与度，还确保了实验环境的自然性和真实性，从而优化了实验的内部效度。

为了确保实验数据的真实性和可靠性，实时监控参与者的行为和输入质量是必不可少的。生成式AI可以通过设计算法，实时监控参与者的行为，检测是否存在不合规行为。

研究人员设计了JavaScript算法，实时监控参与者的行为。例如，算法可以检测参与者是否打开新标签页获取外部信息，或是否复制粘贴内容。通过比较击键数和字符数，算法可以检测参与者的输入质量，确保数据的真实性和可靠性。

此外AI还可以提供即时反馈和支持，帮助参与者理解实验任务，减少不合规行为。例如，AI可以通过聊天机器人等方式，提供即时支持和解答参与者的问题，确保参与者准确理解实验任务，减少不合规行为。

抄袭是实验数据中常见的问题之一，它会严重影响实验结果的准确性和可靠性。为了确保数据的真实性，使用LLM驱动的检测工具检查抄袭是一个有效的方法。

在论文的案例研究中，研究人员使用了LLM驱动的检测工具，检查参与者的输入是否存在抄袭行为。通过分析参与者的输入质量，检测是否存在抄袭或其他不合规行为，AI可以确保实验数据的真实性和可靠性。

随着内容生成真实性检测的难度增加，实时检测方法（如监控打字速度、词汇异质性等）变得至关重要。这些方法可以帮助研究人员检测行为的真实性和合规性，确保实验数据的准确性和可靠性。

论文的案例研究展示了生成式AI在优化实验设计和实施中的具体应用和效果。通过创建引人入胜的故事环境、实时监控参与者行为和输入质量，以及使用LLM驱动的检测工具检查抄袭，研究人员显著提高了实验的准确性和可靠性。

具体而言，生成式AI在以下几个方面取得了显著成果。

提高参与者的参与度：通过生成不同类型的故事叙述，模拟社交媒体和传统媒体平台的内容，研究人员创建了一个熟悉且自然的实验环境，提高了参与者的参与度。确保数据的真实性和可靠性：通过实时监控参与者的行为和输入质量，研究人员能够检测并减少不合规行为，确保实验数据的真实性和可靠性。优化实验的内部效度：通过使用LLM驱动的检测工具检查抄袭，研究人员能够确保数据的真实性，减少实验中的偏差和误差，从而优化实验的内部效度。探索新的行为模式和心理模型：通过创建引人入胜的故事环境和实时监控参与者行为，研究人员能够更深入地探索参与者的行为模式和心理模型，推动社会科学研究的创新和发展。

案例研究展示了生成式AI在优化实验设计和实施中的具体应用和效果。通过创建引人入胜的故事环境、实时监控参与者行为和输入质量，以及使用LLM驱动的检测工具检查抄袭，研究人员显著提高了实验的准确性和可靠性。

利用LLMs探索心理模型

心理模型是指人们在理解和应对复杂问题时所使用的内在认知结构和过程。这些模型帮助个体在面对不确定性和复杂性时进行推理和决策。心理模型不仅影响个体的思维方式和行为，还在很大程度上决定了他们如何处理信息、解决问题和做出决策。

在行为经济学和实验经济学中，研究心理模型具有重要意义。通过理解和测量心理模型，研究人员可以揭示人类决策过程中的潜在机制，解释为什么人们在面对相同的经济激励时会表现出不同的行为。此外，心理模型的研究还可以帮助设计更有效的政策和干预措施，以改善个体和群体的决策质量。

大型语言模型（LLMs）在探索心理模型中具有显著的应用潜力。通过生成和分析自然语言文本，LLMs可以帮助研究人员更深入地理解个体的思维过程和决策行为。

不同类型的故事叙述作为心理提示

在实验设计中，故事叙述是一种有效的心理提示工具，可以引导参与者的思维方式和行为。LLMs可以生成不同类型的故事叙述，模拟社交媒体和传统媒体平台的内容，作为心理提示，促使参与者从“天真思维”转向“批判性思维”。

例如，在论文的案例研究中，研究人员利用LLMs生成了不同长度和风格的故事叙述，模仿Twitter、Facebook和报纸等平台的内容。通过这种方式，研究人员能够创建一个熟悉且自然的实验环境，提高参与者的参与度和实验数据的真实性。

这种方法不仅有助于引导参与者的思维方式，还可以帮助研究人员探索不同类型的故事叙述对心理模型的影响，从而揭示人类决策过程中的潜在机制。

透明和标准化的评分系统

为了准确测量和评估心理模型，透明和标准化的评分系统是必不可少的。LLMs可以生成透明和标准化的评分系统，确保实验结果的准确性和可靠性。

在论文的案例研究中，研究人员设计了一个透明和标准化的评分系统，用于评估参与者的批判性思维能力。该系统由Grammarly等LLM驱动的应用程序提供支持，利用LLM生成的指标和报告，与美国大多数人口的基准进行比较。

这种评分系统不仅确保了评估的透明性和标准化，还减少了人为偏见，提高了实验结果的可信度和可重复性。

结合AI和人类专家的评估方法

尽管LLMs在生成和分析文本方面具有显著优势，但结合AI和人类专家的评估方法可以进一步提高实验结果的准确性和可靠性。在论文的案例研究中，研究人员采用了结合AI和人类专家的评估方法，确保实验结果的准确性和可靠性。

研究人员首先利用LLMs生成初步的评分和评估报告，然后由认知心理学家对批判性思维的文章进行最终评估。每篇文章由三位专家独立评估，采用多数评分系统，减少了个体偏见。

这种结合AI和人类专家的评估方法不仅确保了评估的透明性和标准化，还提高了实验结果的可信度和可重复性。通过这种方法，研究人员能够更准确地测量和评估心理模型，揭示人类决策过程中的潜在机制。

清单1:Qualtrics调查引擎的JavaScript代码

图1：使用AI工具生成的用户界面示例。

AI在实验经济学中的未来前景

生成式AI在实验经济学中的应用前景广阔，能够在多个方面提供支持和创新。生成式AI生成清晰、简明的实验指示和理解检查，确保参与者准确理解实验设置和任务要求，从而减少实验中的误差和偏差。它可以创建高度控制的虚拟实验环境，模拟真实世界中的复杂情境，帮助研究人员探索不同的行为模式和心理模型。生成式AI可以实时监控参与者的行为，提供即时反馈和支持，确保参与者遵守实验规则，减少不合规行为。生成式AI可以分析实验数据，检测潜在的偏差和异常，确保数据的准确性和可靠性。AI还可以生成合成数据，模拟不同的实验条件，帮助研究人员探索不同的行为模式和心理模型。生成式AI可以模拟人类行为，生成合成行为数据，帮助研究人员探索不同的决策过程和行为模式。生成式AI可以预测参与者的行为，设计有效的干预措施，改善个体和群体的决策质量。生成式AI可以根据学生的需求和水平，生成个性化的教育内容，提高学习效果。生成式AI可以为研究人员提供实验设计和实施的培训，帮助他们掌握最新的研究方法和技术。

生成式AI对社会科学研究的影响是深远的，能够推动研究方法和理论的发展，提高研究的科学严谨性和透明性。生成式AI可以显著提高实验设计、实施和数据分析的效率和准确性，减少人为干预和误差，从而获得更为准确和可靠的研究结果。生成式AI提供了新的研究工具和方法，帮助研究人员探索新的行为模式和心理模型，推动社会科学研究的创新和发展。它可以生成透明和标准化的评分系统，确保实验结果的透明性和可重复性，提高研究的可信度和科学严谨性。生成式AI的多模态和多领域应用潜力，促进了社会科学与其他学科的交叉融合，推动了跨学科研究的发展。生成式AI提供了更深入的行为洞察，帮助政策制定者和企业更好地理解和应对复杂的社会和经济问题，设计更有效的政策和干预措施。

生成式AI技术，特别是大型语言模型（LLMs），在实验经济学中的应用前景广阔。通过提高实验设计、实施和数据分析的效率和准确性，生成式AI能够显著增强实验的内部效度，推动社会科学研究的创新和发展。未来，随着生成式AI技术的不断进步，其在社会科学研究中的应用将进一步扩大，为政策制定和商业实践提供重要的洞见。通过结合AI和人类专家的评估方法，研究人员可以确保实验结果的准确性和可靠性，进一步提高社会科学研究的科学严谨性和透明性。（END）

参考资料：https://arxiv.org/pdf/2407.12032

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

行为经济学的大模型--内部有效性和心智模型的启发

独角也有噬元兽