从社会、认知、情感等维度探索LLM的语言能力

随着大型语言模型（LLM）的快速发展，人工智能（AI）在自然语言处理（NLP）领域展现出了令人惊叹的能力。例如，ChatGPT 和 Bard 等模型可以生成类似于人类的文本回复，甚至在某些方面超越了人类的水平。但是这些模型也存在一些局限性和挑战，如何区分人类和 AI 生成的文本，以及如何应对 AI 生成的虚假信息、误导信息和歧视信息等问题。比如在一次典型的对话中，我们更多地关注传达含义、情绪和动作的内容词，而较少关注语法或虚词，如代词、连词和冠词。然而这些虚词也与重要的沟通和心理动力学有关。研究人员认为，内容词和虚词都起着互补的作用，内容词传达我们所说的话，虚词传达我们说话的方式。如何应对这些问题，我们需要深入了解人类和 AI 生成的文本在语言特征上的异同，以及这些特征对于语言理解和交流的影响。

为了探讨人类和 AI 生成的对话在语言特征上的差异，以及这些差异对于语言能力的评估和提升的意义。因此我们对一篇最新的论文《A Linguistic Comparison between Human and ChatGPT-Generated Conversations》进行解读和分析。该论文由美国密歇根州立大学和罗切斯特理工学院的四位研究者合作完成，于 2024 年 1 月发表在 arXiv 上。该论文使用了语言探索与词数分析（LIWC）工具，对 19,533 条人类和 ChatGPT 生成的对话进行了 118 个语言类别的分析，从社会、认知、情感等维度探索了 ChatGPT 的语言能力，并提供了一个由两个独立的 ChatGPT 实例生成的对话数据集，作为人类对话数据集的伴生资源，供 AI 语言建模的研究和应用使用。

背景和动机

语言是人类的重要特征，是人类思维和情感的表达方式，也是人类社会交往的基础。从计算机科学的早期开始，就有人试图赋予机器人类的语言能力，让机器能够理解和生成自然语言，与人类进行有效的对话。但是这一目标一直难以实现，因为自然语言的复杂性和多样性，以及人类的语言习惯和偏好。直到近年来，随着深度学习和大数据的发展，出现了一些能够生成人类般的文本回复的大型语言模型（LLM），如 ChatGPT 和 Bard 等。这些模型通过在海量的文本数据上进行训练，学习了语言的规律和关系，能够根据给定的文本输入，生成合理和连贯的文本输出。这些模型的出现，为自然语言处理和人工智能领域带来了新的可能性和挑战。

目前这些模型的语言能力令人惊叹，它们可以在各种场景和领域中生成类似于人类的文本回复，甚至在某些方面超越了人类的水平。例如ChatGPT 可以生成具有同理心、逻辑性和积极情感色彩的对话，而 Bard 可以生成具有创造力和原创性的诗歌、故事和歌词等。这些模型的语言能力，为提升人机交互的效率和体验，以及拓展人类的语言创造力，提供了有力的工具和资源。

同时这些模型的语言能力也带来了一些风险和问题，比如怎么区分人类和 AI 生成的文本，以及如何应对 AI 生成的虚假信息、误导信息和歧视信息等。由于这些模型的文本生成是基于数据的统计模型，而不是基于真实的经验和知识，因此它们可能生成一些不准确、不恰当或不道德的文本，从而误导、欺骗或伤害读者。此外，由于这些模型的文本生成是基于人类的文本数据，而人类的文本数据可能存在一些偏见、歧视或错误，因此这些模型可能无意中继承或放大了这些问题，从而影响了语言的公平性和质量。

为了应对这些问题，我们需要深入了解人类和 AI 生成的文本在语言特征上的异同，以及这些特征对于语言理解和交流的影响。这样我们才能有效地评估和提升 AI 的语言能力，以及防范和解决 AI 生成的文本所带来的潜在危害。因此，本文的动机是探讨人类和 AI 生成的对话在语言特征上的差异，以及这些差异对于语言能力的评估和提升的意义。

方法和数据

论文的方法是使用语言探索与词数分析（LIWC）工具，对人类和 AI 生成的对话进行语言特征的分析。LIWC 是一种广泛使用的计算语言学工具，它可以对文本进行词汇、语法、语义、情感等方面的分析，从而揭示文本的心理和社会特征。LIWC 包含了 118 个语言类别，每个类别是由一些经过研究选择的词语组成的词典，这些词语与一些心理和社会构念有关。LIWC 可以统计文本中每个类别的词语出现的频率，并将其转化为百分比，从而反映文本的语言特征。

图1：生成框架和创建2GPTEmpathicDialogues数据集时使用的提示。在这个设置中，ChatGPT-3.5-Turbo API的两个实例通过协调程序相互进行对话。

数据是由两个对话数据集组成的，一个是人类生成的对话数据集，另一个是 AI 生成的对话数据集。人类生成的对话数据集是 EmpathicDialogues 数据集，它是一个公开的数据集，包含了 25,000 条人类之间的同理心对话。每条对话由两个人进行，一个人选择一个情感（如害怕）和一个与情感相关的场景（如在夜晚听到房子周围有声音），并与另一个人分享，另一个人则不知道这个情感，只能根据对话来回应。每条对话的平均长度是 4.31 个回合，共有 32 种情感类别。AI 生成的对话数据集是 2GPTEmpathicDialogues 数据集，它是论文的作者使用 ChatGPT-3.5-Turbo 模型生成的，作为 EmpathicDialogues 数据集的伴生资源。每条对话由两个独立的 ChatGPT 实例进行，一个实例选择一个情感和一个与情感相关的场景，作为对话的开头，另一个实例则不知道这个情感，只能根据对话来回应。每条对话的平均长度是 300 个词，共有 32 种情感类别。作者从 EmpathicDialogues 数据集中选取了 19,533 条对话作为人类生成的对话数据集，同时生成了相应的 19,533 条对话作为 AI 生成的对话数据集。作者对这两个数据集进行了 LIWC 分析，从社会、认知、情感等维度探索了 ChatGPT 的语言能力，并提供了这两个数据集的下载链接，供 AI 语言建模的研究和应用使用。

图2：人类和ChatGPT会话的语言特征比较。注：不等方差t检验的df因行而异，范围在27-39K之间。δ=玻璃的Δ，用于计算功率（0.2或更低=小影响，0.5=中等影响，0.8或更高=大）。

主要发现和结论

在社会行为方面，ChatGPT 对话比人类对话更具社会敏感性、同理心和礼貌性，也更少出现人际冲突。这表明 ChatGPT 可以通过语言的策略性使用，展现出对他人的关注和支持，这对于提升人机交互的效果和体验是有益的。

在注意力焦点方面，ChatGPT 对话比人类对话更具注意力，更频繁地使用第二人称代词（你）和第一人称复数代词（我们），而更少地使用第一人称单数代词（我）。这表明 ChatGPT 可以通过代词的选择，展现出对他人的兴趣和倾听，这对于建立人机关系和信任是有益的。

在真实性方面，人类对话比 ChatGPT 对话更具真实性和简洁性，而 ChatGPT 对话则更具复杂性和冗长性。这表明人类对话可以通过语言的直接和简单的方式，展现出自己的个性和风格，而 ChatGPT 对话则可能缺乏这种个性化和真诚性，这对于提升人机交流的质量和效率是有益的。

在分析思维方面，ChatGPT 对话比人类对话更具分析性、逻辑性和层次性，而人类对话则更具叙述性和个人化。这表明 ChatGPT 可以通过语言的形式和结构，展现出自己的推理和判断能力，而人类对话则可能更多地依赖于自己的经验和情感，这对于提升人机解决问题的能力和效果是有益的。

在情感方面，人类对话和 ChatGPT 对话在积极和消极情感的表达上没有显著差异，但对话的嵌入中隐含地编码了情感的价值，即使没有直接提及情感。这表明 ChatGPT 可以通过语言的隐喻和暗示，展现出自己的情感智能，而不是仅仅依赖于情感词汇，这对于提升人机交流的深度和广度是有益的。

最后论文的结论是，ChatGPT 在社会、认知、情感等维度上展现出了令人惊叹的语言能力，甚至在某些方面超越了人类的水平，这为人机交互和语言创造提供了新的可能性和挑战。然而ChatGPT 也存在一些局限性和问题，如真实性、变异性、个性化等方面的不足，以及虚假信息、误导信息和歧视信息等方面的风险，这需要我们进一步深入了解和改进 ChatGPT 的语言能力，以及防范和解决 ChatGPT 生成的文本所带来的潜在危害。

局限性和展望

论文只针对 ChatGPT-3.5-Turbo 模型进行了分析，而不是其他的大型语言模型，如 GPT-4、Claude、Gemini 等。这些模型可能有不同的语言特征和能力，因此论文的结论可能不适用于这些模型。未来的研究可以对不同的大型语言模型进行比较和分析，以及增加论文提供的数据集的内容和质量。

作者使用了 ChatGPT 的默认词数限制，导致 ChatGPT 生成的对话比人类生成的对话更长，平均为 300 个词，而人类生成的对话平均为 60 个词。这种差异可能影响了语言特征的分析和比较，因为长的对话可能包含更多的信息和变化，而短的对话可能更加简洁和直接。未来的研究可以通过调整词数限制，使两个数据集的对话长度更加接近，从而进行更公平和准确的比较。

他们使用了 LIWC 工具作为语言特征的分析方法，但 LIWC 可能不能捕捉到语言的全部细微差别和复杂性，因为 LIWC 是基于词典的方法，而不是基于语义的方法，因此它可能忽略了一些语言的隐含意义和关联性。未来的研究可以使用其他的计算语言学工具，如语义分析、语法分析、语用分析等，来对语言特征进行更深入和全面的分析。

论文在情感价值的分类上，只使用了二元的正向和负向的分类，而没有考虑其他的情感维度，如激活度、强度、复杂度等。这种分类可能过于简化和粗略，不能反映出情感的丰富性和多样性，也不能处理一些具有正负两面性或模糊性的情感，如惊讶、怀旧、希望等。未来的研究可以使用更细致和多元的情感分类方法，如情感圆或情感立方体等，来对情感价值进行更准确和细致的分类。

论文的研究可以为区分人类和 AI 生成的文本的努力提供信息和指导，作者揭示了人类和 AI 生成的文本在语言特征上的差异，以及这些差异对于语言理解和交流的影响。通过分析和比较这些差异，我们可以找出一些人类和 AI 生成的文本的特征和规律，从而设计出一些有效的方法和指标，来判断文本的来源和质量，以及防范和解决 AI 生成的文本所带来的潜在危害。

他们的研究可以为评估和提升 AI 的语言能力提供信息和指导，展示了 ChatGPT 在社会、认知、情感等维度上的语言能力，以及它的优势和不足。通过分析和比较这些能力，我们可以找出一些 ChatGPT 的优点和缺点，从而设计出一些有效的方法和策略，来改进和优化 ChatGPT 的语言能力，以及拓展和利用 ChatGPT 的语言能力。

论文的研究可以为探索和理解 AI 的语言现象提供信息和指导，因为他们揭示了 ChatGPT 的语言特征和能力，以及它与人类的语言特征和能力的异同。通过分析和比较这些特征和能力，我们可以找出一些 AI 的语言现象和规律，从而增加对 AI 的语言能力的理解和认识，以及对 AI 的语言现象的探索和解释。

最后的启示

在论文中，作者使用 LIWC 分析了 118 个语言类别，探索了人类和 ChatGPT 生成的对话的语言差异。他们的研究发现，虽然人类对话表现出更大的变异性和真实性，但 ChatGPT 在社会过程、分析风格、认知、注意力焦点和积极情感色调等方面表现出了更高的熟练程度，呼应了 LLM 在许多语言使用方面可以“比人类更人性化”的说法。研究的一个重要贡献是开发了 2GPTEmpathicDialogues 数据集，这是一个由 ChatGPT 生成的对话的新颖集合，它为探索 AI 语言建模提供了宝贵的资源。此外，研究还揭示了对话嵌入中隐含地编码了情感，尽管没有直接提及情感，突显了 AI 的情感智能。这项研究不仅有助于我们理解 ChatGPT 的语言能力，也在告知如何区分人类和 AI 生成的文本的持续努力中发挥了关键作用。

研究的结果必须与一些局限性一起进行评估。LLM 模型正在快速改进，他们的说法仅限于 ChatGPT-3.5-Turbo。更新的版本如 GPT-4、Claude 和 Gemini 可能会有不同的表现。在未来比较不同 LLM 的语言特征并增加本研究生成的伴生数据集将是有益的。在 ChatGPT 中使用默认的词数限制导致了更长的对话，平均为 300 个词，这比人类对话的平均 60 个词要多得多。这种差异可以在未来的研究中通过调整词数限制参数来纠正。尽管存在这种局限性，我们的研究结果仍然有效，因为 LIWC 指标通过将指标转换为词数的百分比来调整语料库中的词数。在对嵌入进行情感价值分析时，他们使用了一个情感分类器，它依赖于将 32 种情感二元地分类为正向或负向情感。这可能是一个过于限制的分类，这在 UMAP 可视化和分类实验指标中很明显。因为情感是复杂的，他们知道从情感的共激活理论，同时具有正向和负向情感是可能的，需要更多的工作来允许更微妙的分类，具有更多的情感维度。例如，可以在未来的研究中引入激活度维度。另一个局限性来自 LIWC 工具本身的固有性质。虽然 LIWC 是一种广泛使用的语言分析工具，但它可能无法捕捉到语言的全部细微差别和复杂性。这可能限制了我们对人类和 AI 生成的语言之间差异的理解的深度。尽管我们尽了最大的努力通过提示工程来减轻角色混淆，但我们仍然无法完全消除它。这是一个必须在未来的研究中解决的局限性。

随着 AI 掌握人类语言并进入社会互动的领域，我们面临着一个未来，即区分与人类和 AI 的对话可能变得越来越困难。作者的研究结果表明，这在很大程度上已经发生了。我们如何应对这种身份的消解是一个更大的哲学问题，它超越了语言，可能会塑造我们的未来。他们的分析显示，在认知特征方面，如分析思维、认知和注意力焦点，ChatGPT 的得分高于人类。由于计算机不受人类变异性的影响，如个体差异和疲劳，这种一致性在需要不断的认知参与和分析精度的情境中提供了显著的优势。然而这种一致性也可能在人类般的变异性和适应性受到重视的情况下被视为一种弱点。人类交流的本质往往在于细微之处——不规则的、不可预测的和情感的细微差别——它们不仅仅是纯粹的认知能力，而是涉及到包括同理心、文化背景和个人经验在内的因素的复杂相互作用。虽然 ChatGPT 在一定程度上展示了模仿这些方面的令人印象深刻的能力，但问题仍然是它是否能够完全复制人类互动的深度和丰富性。在社会领域，生成型 AI 越来越多地被部署，从客户服务到医疗服务，他们的研究结果具有重要的意义。ChatGPT 的先进的语言能力可能会提高用户的体验和满意度，但也会引发道德和社会方面的担忧，如欺骗、操纵和歧视。因此，我们需要在开发和使用 AI 生成的文本时保持警惕和负责，确保它符合人类的最佳利益。（END）

参考资料：https://arxiv.org/abs/2401.16587

噬元兽（FlerkenS）是一个去中心化的个人AI数字价值容器，同时也是数字经济的新型资产捕捉器和转化器，用数据飞轮为用户提供无边界的数字化、智能化和资产化服务。

噬元兽(FlerkenS)构建AI市场、AI发布器和一个在通用人工智能（AGI）上建设可扩展的系统，AI-DSL让不同类型和领域的AI应用和服务可以相互协作和交互，通过RAG向量数据库（Personal Vector Database）+ Langchain技术方案（Langchain Technology Solution）+大模型的技术实现路径，让用户获得个性化的AI服务，在分布式的网络环境里与AI技术下的服务商实现点到点的连接，建设一个智能体和经济体结合的数智化整体。

波动世界（PoppleWorld)是噬元兽平台的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，采用Web3分布式技术建设一套采集用户情绪数据并通过TOKEN激励聚合形成情感垂直领域的RAG向量数据库，并以此训练一个专门解决用户情绪管理的大模型，结合Agents技术形成情感类AI智慧体。在产品里植入协助用户之间深度交互提供情绪价值的社交元素，根据用户的更深层化的需求处理准确洞察匹配需求，帮助用户做有信心的购买决定并提供基于意识源头的商品和服务，建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

从社会、认知、情感等维度探索LLM的语言能力

独角也有噬元兽