社会科学的自动化：语言模型的角色与应用

导读今天分享的工作和 MIT 斯隆商学院教授 John J. Horton 与斯隆商学院 phd Benjamin 共同完成，探讨如何使用大语言模型实现自动流程化的社会科学实验与效应评估。

主要分为以下四部分内容：

1. 研究背景

2. Automated Social Science

3. 结果验证：以拍卖行为例

4. 大语言模型的意义及未来展望

分享嘉宾｜朱科航 Harvard PhD

编辑整理｜王雨润

内容校对｜李瑶

出品社区｜DataFun

研究背景

传统意义上，基于社会科学实验或 AB testing 进行效应评估、个体建模、效用函数建模等任务，在社会科学领域内都属于关于人的科学，其研究范式非常有限，基本可分为假设（hypothesis）、实验（run experiment）、分析（analyze results）三个步骤。

自 2022 年 12 月 ChatGPT 问世以来，使用大语言模型进行社会科学研究的工作已受到广泛关注与研究。在假设生成领域，已有研究包括使用大语言模型从开源数据、文本库、论文库等多种数据源中挖掘新的研究假设。

下图中 Sendhil 的工作是利用机器学习作为工具，从已有数据中挖掘新的假设，并做假设验证。

在实验部分，Michael Bernstein 所设计的斯坦福小镇提出使用大语言模型作为虚拟人物并赋予它们不同的角色，让它们进行互动。

John J. Horton 在更早时间也提出可以使用大语言模型作为真人的代替，并使用大语言模型完成了对于经济学经典论文的复现，发现大语言模型的行为与真实人类的行为具有极高的相似性。GPT 作为真人的代替，同样被应用于微软的市场研究中，用来测试客户的购买意愿。

在分析环节，大模型使用 agent 实现自动数据分析流已成为大模型研究的重要分支。

对于社会科学研究的三个步骤，针对某一步骤应用大模型的工作已相对成熟，但尚未出现整合三个步骤的大模型统一应用框架。因此，Automated Social Science 旨在弥补这一 gap，使用大模型打造自动的社会科学研究工作流。

Automated Social Science

Automated Social Science 共分为七个模块。第一个模块为设定社会情境（Specify Social Scenario），是整体工作流中唯一需要人类参与的环节。第二个模块为生成假设（Hypothesis Generation），根据设定的社会情境，大语言模型自动产生研究假设。接着第三个模块，根据假设，生成对应的大模型 agent（Agent Building）。有了 agent 之后，第四个模块就是设计 agent 之间的互动机制（Design Interaction），比如看视频号场景下，创作者和观看者之间如何互动，或者广告商与客户之间如何互动。第五个模块是进行实验（Experiment Running），大语言模型在平台自动执行实验，并收集数据（Data Collection），即第六个模块。并在最后的模型评估模块（Model Estimation）进行模型的评估与效应估计。

下面通过一些具体的例子来解释上述过程。

一个人类研究者具有自身所关注的社会研究情境，例如交易、工作面试、听证会等。

针对以上具体情境，可以在结构因果模型（Structural Causal Model）的框架下生成假设。例如，在交易场景中，自变量是买方的预算，我们关心的因变量是交易是否达成。

影响交易是否会发生的因素包括买方的预算、卖方的交易情感意愿等。为验证该假设，基于 LLM 的 scientist agent 需要设计实验以验证。需要特别指出一点，我们的工作的一个特别之处是，所有 treatment 都是对同一些 LLM agent 做的，只不过会不断对 LLM 进行初始化。这样就不会存在个体差异性带来的问题，也不会有干扰的问题。

基于以上假设信息，通过 prompting 的方式赋予 LLM 身份、属性和状态，以创建 agent。如图所示，即为大语言模型构建的买方和卖方的 agent。

如下图所示，卖方具有角色身份、名字、目标、情感意愿等属性；买方也是类似的。

在交互机制的设计中，通过提前设定的规则引导不同 agent 之间的互动。在本例中，买卖双方通过固定交换的交互方式进行出价。

接着就可以启动实验，在相互独立的 agent 之间开启模拟对话。

如下图所示的两个并行实验，在不同条件设定下会得到不同的实验结果。

实验后的数据收集过程通过直接询问 agent 获得，非常简单高效。

通过这些数据就可以对模型进行评估。判断自变量和因变量的关系。

模型获得的估计系数可用于反事实的推断，例如，若买方的预算增加 1 块钱，则最终交易达成的概率会增加多少。

输入一句话“Two people bargaining over a mug”，后面所有信息由大语言模型自动生成。首先会决定有 Buyer 和 Seller 两个 Agent，接着会决定 Buyer's budget、Seller's minimum price、Seller's love for the mug 三个自变量，结果就是交易是否达成。

在此基础上设定自变量的值，即 multi-level treatment。

实验后得到的反事实是，$1 的 budget 增加，会使交易发生的几率提升3.7%；而卖家心理价位增加 $1，会导致交易发生几率下降 3.5%；卖家喜爱程度也与交易发生几率负相关，喜爱程度增加1 个单位会使交易几率下降 2.5%。

结果验证：以拍卖行为例

如何验证以上过程所得到结果的有效性及结果的外延性，本研究中使用经济学中经典的拍卖行场景进行分析，由三个竞拍者竞拍一件艺术品，从 $50 开始起拍。

LLM 分别为三个竞拍者 agent 提供一组拍卖预算变量，并自动进行实验，最终计算得出的效应量分别为 0.352、0.293 和 0.313。说明三位竞拍者基本处于均等的拍卖位置，竞拍预算每增加 $1，会对艺术品的成交价格产生 33% 的影响。

经典拍卖理论认为，交易最终达成的价格等于竞拍者中第二高的估价。因为当第二高的出价者退出后，最高估价的竞拍者就不会再出更高价格了，而是会接受第二高的价格。

实验结果显示，模拟的数据与理论预测基本吻合。

大语言模型的意义及未来展望

我们为什么要利用大语言模型来模拟真人呢？大语言模型本质上是用互联网数据进行训练的最大规模模型，有理由相信其能捕捉到人类行为中的细节。利用大语言模型和人类的相似性，可以将大语言模型作为实验的人类受试者的替代。大语言模型可以以较低成本进行大规模的实验，可有效减少干扰变量的影响，并且效率更高，还可规避一些道德伦理的问题。

未来的研究主要包括三个方面：一、如何建造在提出假设、设计实验等方面更好的大语言模型科学家；二、如何利用大语言模型实现对人类行为更好的建模；三、利用大语言模型进行公共政策的模拟。

以上就是本次分享的内容，谢谢大家。

幸福双城资讯网

社会科学的自动化：语言模型的角色与应用

大数据智能说