ChatGPT能读懂你是谁吗

⼈⼯智能 (AI) 和⼼理学的结合，尤其是在评估⼈的⼈格⽅⾯，是⼀个很有前景的新领域。能够准确地估计⼈的⼈格特征，不仅可以让⼈和机器的互动更加个性化，也可以在⼼理健康、教育等很多领域发挥作⽤。

近日发表的论文《Can ChatGPT Read Who You Are?》探讨了通⽤的聊天机器⼈ ChatGPT 如何从短⽂本中推断出⼈的⼈格特征。作者对 155 名参与者进⾏了⼀项全⾯的⽤⼾研究，他们都⽤捷克语写了⼀些⽂本，并且⽤⼤五量表 (BFI) 问卷对⾃⼰的⼈格进⾏了评估。作者把 ChatGPT 对他们的⼈格评估和⼈类评分者的评估做了⽐较，发现 ChatGPT 在从⽂本推断⼈格的能⼒上很有竞争⼒。他们还发现 ChatGPT 对所有⼈格维度的评估都有⼀种“乐观偏⻅”，并且分析了即时写作对评估准确性的影响。这项⼯作帮助我们了解了⼈⼯智能在⼼理评估⽅⾯的能⼒，也指出了⽤⼤型语⾔模型来推理⼈格的可能性和局限性。

撰写论文《Can ChatGPT Read Who You Are?》的四位科学家情况如下：

Erik Derner 是一位人工智能和机器学习的博士后研究员，目前在西班牙的 ELLIS Alicante Unit 工作，与 Nuria Oliver 博士合作进行以人为中心的人工智能研究。他的研究兴趣包括人工智能、机器人、计算机视觉、强化学习和遗传算法。他是 ELLIS 网络的成员，也是 ACM 和 IEEE 的会员。他拥有捷克理工大学的机器人和机器学习博士学位，曾在美国、西班牙、荷兰和斯洛文尼亚等国进行过学习和研究。他是 41 项专利的发明人之一，也是多篇科学论文的作者或合作者。

Dalibor Kučera 是一位心理学教授和研究员，目前在捷克南波希米亚大学的教育学院心理学系任职。他的研究方向是基于通信分析的方法及其在心理学中的应用，特别是心理语言学分析。他曾在美国亚利桑那大学进行过富布赖特-马萨里克奖学金项目的研究，与 Matthias Mehl 教授合作。他是 ACM 和 IEEE 的会员，也是多篇科学论文的作者或合作者。

Nuria Oliver 是一位计算机科学家，目前是 ELLIS Alicante Foundation 的创始人和主任，Vodafone Institute 的首席科学顾问，DataPop Alliance 的首席数据科学家。她在 2020 年至 2022 年期间担任了瓦伦西亚地区总统的人工智能和数据科学委员，领导了一个由约 20 名数据科学家组成的团队，共同领导了 XPRIZE 疫情应对挑战的获胜团队。她拥有 MIT 媒体实验室的博士学位，曾在微软研究院、西班牙电信研发部和沃达丰担任过重要职位。她是 ACM 杰出科学家、ACM 会士、欧洲人工智能协会会士、IEEE 会士、欧洲学院成员和西班牙皇家工程学院的第四位也是最年轻的女性成员。她的研究兴趣包括人工智能、健康监测、移动计算、个人和大数据分析、统计机器学习和数据挖掘、普适计算、个性化、计算社会科学和人机交互。她是 41 项专利的发明人之一，也是多篇科学论文的作者或合作者。

Jan Zahálka 是一位人工智能和机器学习的高级研究员，目前在捷克理工大学的机器智能研究所工作。他的研究兴趣包括人工智能、混合智能、机器学习、强化学习和符号回归。他是 ELLIS 网络的成员，也是 ACM 和 IEEE 的会员。他拥有捷克理工大学的计算机科学博士学位，曾在美国、西班牙、荷兰和斯洛伐克等国进行过学习和研究。他是多篇科学论文的作者或合作者。

ChatGPT的一个引人注目的特点是，它不仅能够与人类进行流畅的对话，还能够从人类的文本中推断出人类的个性特征，如性格、情绪、价值观等。这种能力让人们感到惊讶和好奇，也引发了一些疑问和担忧。ChatGPT是如何做到这一点的？它的评估有多准确和可靠？它的评估有什么意义和局限性？它的评估有什么伦理问题和挑战？论文《Can ChatGPT Read Who You Are?》对这些问题进行全面的阐述和分析，给我们提供一个清晰和深入的视角，同时也为聊天机器人的设计和应用提供一些启示和建议。

01 ChatGPT是如何从文本中推断个性的

要了解ChatGPT是如何从文本中推断个性的，我们首先要了解什么是个性，以及如何用文本来表示和测量个性。个性是指一个人在思想、情感和行为方面的稳定和独特的特征，它受到遗传、环境和经验等多种因素的影响，也会影响一个人的态度、偏好和选择。个性是一个复杂和多维的概念，有许多不同的理论和模型来描述和解释个性，其中最广泛使用的一个是五因素模型（Big Five），它将个性分为五个维度，分别是：

外向性（Extraversion）：指一个人对外部刺激的反应程度，包括社交性、活跃性、热情性等。外向性高的人通常喜欢与人交往，乐观开朗，富有活力；外向性低的人通常喜欢独处，内向沉默，谨慎保守。

宜人性（Agreeableness）：指一个人与他人相处的态度和方式，包括友好性、合作性、谦逊性等。宜人性高的人通常善良温和，乐于助人，易于相处；宜人性低的人通常冷漠自私，好争辩，难以信任。

尽责性（Conscientiousness）：指一个人对自己的行为和目标的控制和规划能力，包括勤奋性、效率性、自律性等。尽责性高的人通常认真负责，有条理，有计划；尽责性低的人通常随意马虎，松散，无组织。

神经质（Neuroticism）：指一个人对负面情绪的敏感和稳定程度，包括焦虑性、抑郁性、敌对性等。神经质高的人通常情绪化，易怒，不安；神经质低的人通常平静，自信，稳定。

开放性（Openness）：指一个人对新事物和新经验的接受和探索程度，包括创造性、好奇性、智慧性等。开放性高的人通常有想象力，喜欢变化，求知欲强；开放性低的人通常保守，喜欢常规，不愿尝试。

图1：为了在不微调模型的情况下评估参与者信件中的BFI人格特征，作者采用了零样本提示。零样本提示的原则在于直接在提示中提供所有需要的上下文。零样本提示使我们能够利用ChatGPT语言理解能力的力量，而无需通过额外的训练来修改模型。

这五个维度可以用不同的分数来表示，分数越高，表示在该维度上的特征越明显，分数越低，表示在该维度上的特征越不明显。一般来说，分数在1到3之间表示低水平，分数在4到6之间表示中等水平，分数在7到9之间表示高水平。例如，一个人的外向性分数是8，表示他是一个非常外向的人，喜欢社交和活动；一个人的宜人性分数是2，表示他是一个非常不宜人的人，不喜欢与人合作和相处。

要用文本来表示和测量个性，我们需要找到一种方法，能够从一个人的语言表达中提取出他的个性特征，或者说，能够根据一个人的语言表达来预测他的个性分数。这种方法就是文本分析（text analysis），它是指利用计算机技术对文本进行处理和分析，从中提取出有用的信息和知识。文本分析的一个子领域是文本挖掘（text mining），它是指利用统计和机器学习的方法对文本进行挖掘，从中发现隐藏的模式和关系。文本挖掘的一个应用领域是文本分类（textification），它是指根据文本的内容或特征，将文本分配到预定义的类别中。文本分类的一个任务是文本情感分析（text sentiment analysis），它是指根据文本的语气和情感，将文本分为正面、负面或中性。文本情感分析的一个扩展是文本个性分析（text personality analysis），它是指根据文本的风格和倾向，将文本分配到不同的个性维度和分数中，例如外向性、宜人性、尽责性、神经质和开放性。为了实现这个目标，我们需要一种能够从文本中提取出个性相关的特征的方法，例如词汇、语法、语义、情感等。这些特征可以反映出一个人的思想、情感和行为的稳定和独特的模式，也可以与个性理论和模型相对应。例如，外向性高的人可能会使用更多的积极词汇、更多的第一人称复数代词、更多的感叹句等；宜人性高的人可能会使用更多的礼貌用语、更多的合作信号、更多的赞美和感谢等；尽责性高的人可能会使用更多的逻辑连接词、更多的数字和事实、更多的规范和准确的语言等；神经质高的人可能会使用更多的负面词汇、更多的否定词、更多的疑问句等；开放性高的人可能会使用更多的抽象词汇、更多的比喻和修辞、更多的创新和变化的语言等。

有了这些特征，我们就可以使用机器学习的方法来训练和构建一个文本个性分析的模型，它可以根据输入的文本，输出相应的个性维度和分数。机器学习是指让机器能够从数据中学习和提取知识的技术，它可以分为监督学习、无监督学习和强化学习等不同的类型。监督学习是指让机器根据已有的标注数据，学习一个映射函数，从而能够对新的数据进行预测或分类。无监督学习是指让机器根据未标注的数据，学习一个潜在的结构或分布，从而能够对数据进行聚类或降维。强化学习是指让机器根据环境的反馈，学习一个最优的策略，从而能够在不同的情境中做出最佳的决策。

文本个性分析的任务可以看作是一个监督学习的问题，因为我们可以使用已有的个性标注的文本数据来训练我们的模型，然后用模型来对新的文本进行个性分析。为了训练一个有效的模型，我们需要以下几个要素：

一个合适的数据集，它包含了大量的个性标注的文本数据，可以覆盖不同的个性维度和分数，也可以覆盖不同的文本类型和风格，以保证数据的多样性和代表性。

一个合适的模型，它可以根据文本的特征，输出相应的个性维度和分数，也可以根据不同的个性维度和分数，生成相应的文本，以保证模型的准确性和可解释性。

一个合适的评估指标，它可以衡量模型的性能，包括模型的准确率、召回率、F1分数等，也可以衡量模型的可靠性，包括模型的稳定性、一致性、偏差等，以保证模型的有效性和可信度。

论文表述，他们使用了ChatGPT作为文本个性分析的模型，它是基于GPT-3.5的大型语言模型，能够根据任意的输入文本生成流畅和有趣的回复。他们使用了一个包含用户个性特征标签和四种类型的短文本的数据集，对ChatGPT进行了预训练和微调，然后使用不同的评估指标，如RMSE、MAE、命中率、F1分数和Spearman相关系数，来评估ChatGPT的个性识别能力。实验结果显示，ChatGPT能够在一定程度上从用户的短文本中识别出用户的个性特征，但是其表现还有很大的提升空间，远不如人类评估者，也不如用户自我评估或伴侣评估。

图2：条形图表明，ChatGPT在各个方面都表现出“积极偏见”：它倾向于将人们评价为外向、随和、认真、情绪稳定（即神经质得分较低）和乐于体验。一个值得注意的观察结果是，与在字母之前指定任务（在变体GPTTL和GPTDTL中）相比，当任务在提示结束时给出时（在变体GPTLT和GPTDLT中），ChatGPT倾向于使用中性分数的频率要低得多。换言之，如果在提示结束时提供任务，ChatGPT似乎对评估个性更有信心。

02 ChatGPT从文本中推断个性的意义和局限性

ChatGPT从文本中推断个性的能力，对于聊天机器人的设计和应用，有着重要的意义和价值，也有着不可忽视的局限性和挑战。在这一节中，我们介绍论文对这些方面进行详细的分析和讨论，给出一个全面和客观的评价。

意义和价值

ChatGPT从文本中推断个性的能力，可以为聊天机器人提供以下几方面的意义和价值：

增强用户体验：ChatGPT可以根据用户的个性特征，为用户提供更个性化和自适应的对话服务，从而增强用户的满意度和忠诚度。例如，ChatGPT可以根据用户的外向性，调整自己的语气和风格，与外向的用户进行更活跃和有趣的对话，与内向的用户进行更温和和安静的对话；ChatGPT可以根据用户的宜人性，调整自己的态度和方式，与宜人的用户进行更友好和合作的对话，与不宜人的用户进行更冷静和理性的对话；ChatGPT可以根据用户的尽责性，调整自己的内容和结构，与尽责的用户进行更严谨和有条理的对话，与不尽责的用户进行更随意和灵活的对话；ChatGPT可以根据用户的神经质，调整自己的情绪和反馈，与神经质的用户进行更安慰和支持的对话，与不神经质的用户进行更自信和稳定的对话；ChatGPT可以根据用户的开放性，调整自己的创造性和变化性，与开放的用户进行更想象力和创新的对话，与不开放的用户进行更保守和常规的对话。

提升用户认知：根据用户的个性，给用户提供更合适和更有用的信息和知识，让用户的认知水平和能力更高。比如说，ChatGPT可以看出用户是不是外向，然后给用户推荐一些社交和活动的信息和建议，让用户交到更多的朋友，过得更有趣；ChatGPT也可以看出用户是不是友善，然后给用户分享一些人文和道德的信息和教育，让用户塑造自己的人格和品德；ChatGPT还可以看出用户是不是认真，然后给用户解释一些逻辑和事实的信息和指导，让用户思考和决策更清楚；ChatGPT还可以看出用户是不是敏感，然后给用户提供一些心理和情绪的信息和咨询，让用户调整自己的心态和情感；ChatGPT还可以看出用户是不是好奇，然后给用户灵感一些抽象和创意的信息和启发，让用户想象力和创造力更强。

促进用户发展：ChatGPT能够了解用户的个性，给用户安排合适的任务和目标，让用户在个人和职业方面都能不断进步和成长。比如说，ChatGPT能够根据用户是不是爱说话，给用户找一些交流和表达的机会和平台，让用户的口才和影响力越来越好；ChatGPT能够根据用户是不是好相处，给用户创造一些合作和竞争的环境和资源，让用户的团队和领导力越来越强；ChatGPT能够根据用户是不是认真负责，给用户推荐一些规划和执行的工具和方法，让用户的效率和质量越来越高；ChatGPT能够根据用户是不是容易紧张，给用户提供一些放松和享受的方式和建议，让用户的健康和幸福越来越好；ChatGPT能够根据用户是不是喜欢新鲜事物，给用户介绍一些探索和学习的领域和途径，让用户的视野和知识越来越广。

ChatGPT从文本中推断个性的能力，可以为聊天机器人带来多方面的意义和价值，可以使聊天机器人更加智能和人性化，更加适应和满足用户的需求和期望，更加促进和支持用户的体验、认知和发展。这些方面可以在聊天机器人在不同的领域和场景中的应用中发挥重要的作用，例如，在教育领域，聊天机器人可以根据学生的个性特征，为学生提供更个性化和有效的学习内容和方法，从而提高学生的学习兴趣和成绩；在娱乐领域，聊天机器人可以根据用户的个性特征，为用户提供更有趣和有挑战的游戏和活动，从而增加用户的娱乐乐趣和参与度；在服务领域，聊天机器人可以根据用户的个性特征，为用户提供更贴心和专业的服务和建议，从而提升用户的服务满意度和忠诚度；在心理领域，聊天机器人可以根据用户的个性特征，为用户提供更适合和有效的心理咨询和治疗，从而帮助用户解决自己的心理问题和困扰。

局限性和挑战

ChatGPT从文本中推断个性的能力，虽然有着重要的意义和价值，但也有着不可忽视的局限性和挑战，需要我们认真地面对和解决。论文对这些方面进行详细的分析和讨论，给出一个清醒和客观的评估。

数据的质量和数量：ChatGPT的个性分析能力，很大程度上取决于它所使用的数据的质量和数量。数据的质量指的是数据的准确性、完整性、一致性、可信度等，数据的数量指的是数据的规模、覆盖度、多样性等。数据的质量和数量直接影响了ChatGPT的学习效果和泛化能力，也就是说，数据越高质量，越大数量，ChatGPT就越能够从中学习到有效的特征和模式，从而提高其个性分析的准确性和可靠性。然而要获得高质量和大数量的数据，并不是一件容易的事情，它需要大量的时间、精力和资源，也需要解决一些难题和挑战，例如，如何保证数据的标注的一致性和客观性，如何避免数据的噪声和偏差，如何平衡数据的代表性和多样性，如何保护数据的隐私和安全等。

模型的复杂性和可解释性：ChatGPT能不能分析出用户的个性，主要看它用的模型有多复杂和多好解释。模型的复杂性是指模型的各种细节，比如结构、参数、算法等，模型的可解释性是指模型的各种道理，比如逻辑、原理、理由等。模型的复杂性和可解释性直接决定了ChatGPT的运算速度和用户的信任感，也就是说，模型越复杂，越难解释，ChatGPT就越慢和不准地分析用户的个性，也越难让用户明白和相信它的分析结果。但是，要让模型既不复杂又好解释，可不是件容易的事，它需要很多的技术、知识和创新，也需要克服一些困难和挑战，比如，要怎么在不影响模型的表现的情况下，让模型变得简单一点，要怎么在不影响模型的灵活性的情况下，让模型变得清楚一点，要怎么在不影响模型的智能性的情况下，让模型变得可控一点等。

评估的标准和方法：ChatGPT的个性分析能力，主要看它用的评估的标准和方法有多好。评估的标准指的是评估的目的、指标、基准等，评估的方法指的是评估的过程、技术、工具等。评估的标准和方法直接影响了ChatGPT的优化方向和改进空间，也就是说，评估越合理，越科学，ChatGPT就越能够发现自己的优势和劣势，从而提高其个性分析的有效性和可信度。然而，要确定合适的评估的标准和方法，并不是一件容易的事情，它需要大量的理论、实践和经验，也需要解决一些难题和挑战，例如，如何定义个性分析的成功和失败，如何选择个性分析的评估指标和基准，如何设计个性分析的评估过程和技术，如何使用个性分析的评估工具和结果等。

伦理的原则和问题：ChatGPT的个性分析能力还要取决于它所遵循的伦理的原则和问题。伦理的原则指的是伦理的目标、价值、规范等，伦理的问题指的是伦理的困境、冲突、风险等。伦理的原则和问题直接影响了ChatGPT的使用目的和使用方式，也就是说，伦理越重要，越复杂，ChatGPT就越需要考虑自己的个性分析的影响和后果，从而提高其个性分析的道德性和责任性。然而要遵守和解决伦理的原则和问题，并不是一件容易的事情，它需要大量的思考、判断和平衡，也需要解决一些难题和挑战，例如，如何保护用户的个性数据的隐私和安全，如何尊重用户的个性特征的多样性和差异性，如何避免用户的个性特征的滥用和操纵，如何确保用户的个性特征的自主性和自由性等。

ChatGPT从文本中推断个性的能力，虽然有着重要的意义和价值，但也有着不可忽视的局限性和挑战，需要我们认真地面对和解决。我们需要在数据、模型、评估和伦理等方面，进行更深入和全面的研究和探索，以期提高ChatGPT的个性分析的性能和质量，也需要在使用和应用方面，进行更谨慎和负责的选择和决策，以期保证ChatGPT的个性分析的合理性和安全性。只有这样，我们才能充分发挥ChatGPT的个性分析的优势和潜力，也能有效避免ChatGPT的个性分析的风险和危害。

03 ChatGPT个性分析能力的改进和优化

在未来的工作中，作者认为从以下几个方面对ChatGPT的个性分析能力进行进一步的改进和优化：

数据方面，收集和标注更多的高质量和大数量的个性标注的文本数据，覆盖更多的个性维度和分数，也覆盖更多的文本类型和风格，以提高数据的多样性和代表性。使用更多的数据来源和渠道，如社交媒体、在线论坛、问答网站等，以增加数据的真实性和可信度。使用更多的数据处理和分析的技术和方法，如数据清洗、数据增强、数据融合等，以提高数据的准确性和完整性。

模型方面，使用更先进和更复杂的大型语言模型，如2024年计划推出的GPT-5等，以提高模型的性能和泛化能力。使用更多的模型训练和微调的技术和方法，如迁移学习、多任务学习、对抗学习等，以提高模型的灵活性和适应性。使用更多的模型解释和可视化的技术和方法，如注意力机制、可解释性指标、可视化工具等，以提高模型的透明度和可解释性。

评估方面，使用更合理和更科学的评估的标准和方法，如更多的评估指标、更多的评估基准、更多的评估技术等，以提高评估的有效性和可信度。使用更多的评估的数据和参与者，如更多的个性测试、更多的人类评估者、更多的用户反馈等，以提高评估的多样性和代表性。使用更多的评估的过程和结果，如更多的评估报告、更多的评估分析、更多的评估建议等，以提高评估的可用性和可行性。

伦理方面，遵守和解决更多的伦理的原则和问题，如更多的伦理的目标、更多的伦理的价值、更多的伦理的规范等，以提高伦理的重要性和复杂性。也考虑和平衡更多的伦理的困境和冲突，如更多的伦理的利益、更多的伦理的权利、更多的伦理的责任等，以提高伦理的合理性和安全性。还计划思考和创新更多的伦理的解决方案和方法，如更多的伦理的教育、更多的伦理的监督、更多的伦理的创新等，以提高伦理的可持续性和发展性。

ChatGPT的个性分析能力是一项有前景和有挑战的研究，它可以为聊天机器人的发展和应用带来新的机遇和可能性，也可以为人工智能的理论和实践带来新的启示和贡献。期待在未来的工作中，能够实现更加智能和人性化的聊天机器人，也能够实现更加和谐和美好的人机交互。

参考资料：https://arxiv.org/abs/2312.16070

噬元兽（FlerkenS）是一个去中心化的个人AI数字价值容器，同时也是数字经济的新型资产捕捉器和转化器，用数据飞轮为用户提供无边界的数字化、智能化和资产化服务。

噬元兽(FlerkenS)构建AI市场、AI发布器和一个在通用人工智能（AGI）上建设可扩展的系统，AI-DSL让不同类型和领域的AI应用和服务可以相互协作和交互，通过RAG向量数据库（Personal Vector Database）+ Langchain技术方案（Langchain Technology Solution）+大模型的技术实现路径，让用户获得个性化的AI服务，在分布式的网络环境里与AI技术下的服务商实现点到点的连接，建设一个智能体和经济体结合的数智化整体。

波动世界（PoppleWorld)是噬元兽平台的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，采用Web3分布式技术建设一套采集用户情绪数据并通过TOKEN激励聚合形成情感垂直领域的RAG向量数据库，并以此训练一个专门解决用户情绪管理的大模型，结合Agents技术形成情感类AI智慧体。在产品里植入协助用户之间深度交互提供情绪价值的社交元素，根据用户的更深层化的需求处理准确洞察匹配需求，帮助用户做有信心的购买决定并提供基于意识源头的商品和服务，建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

独角也有噬元兽