ValueLex架构揭示LLMs拥有一个结构化的非人类的价值体系

独角也有噬元兽 2024-04-24 02:57:31

尽管以往的研究已经对LLMs的价值观进行了广泛的探讨,但这些研究大多基于以人为中心的社会科学价值体系。这引出了一个问题,LLMs是否具有超越人类的独特价值体系?

当我们谈到LLM价值体系时,不仅仅是社会责任,还有更深层次的考虑。特别是对于那些作为平台型LLM或杀手级应用的模型,我们需要重新审视其价值体系。这个价值体系应该在某种程度上反映了人类的价值体系,但也应该展现出其自身的独特性。这有助于确保LLMs在不同环境中都能表现出合适的行为。这意味着它们更能够遵循特定的价值导向,展示出它成为平台型LLM或杀手级应用的模型必要条件。

4月22日arXiv发表的热门论文《Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches》提出了一个创新的框架——ValueLex。该框架借鉴了心理学中的人类个性和价值研究方法,从零开始构建了LLMs的独特价值体系。ValueLex基于词汇假设,通过从30多个LLMs中提取不同的价值观,并运用综合分类法、因素分析和语义聚类,最终形成了一个综合的价值框架。作者团队确定了三个核心价值维度——能力、品格和诚信,并为每个维度定义了具体的子维度,揭示了LLMs拥有一个结构化的、非人类的价值体系。基于这一体系,他们进一步开发了定制的投影测试,以评估和分析LLMs在不同模型大小、训练方法和数据源上的价值倾向。

LLMs在自然语言处理、文本生成等领域取得了巨大成功,但是随着这些模型的广泛应用,我们需要更深入地了解它们的内在价值观。论文通过跨学科的方法,揭示了LLMs的独特价值体系,并探讨了它们与人类价值观的异同。作者团队建立了一个标准化的评估框架,用于评估LLMs的价值一致性。通过对LLMs的价值维度进行分析,他们发现了三个主要维度:能力、性格和正直。与人类价值观相比,LLMs的价值体系更专业化,但仍然反映了人类期望。他们认为未来的研究应该进一步扩展这一框架,以更全面地理解LLMs的潜在价值和行为。

作者团队背景丰富,跨越了多个学科领域。Pablo Biedma,微软亚洲研究院研究员。Xiaoyuan Yi,清华大学计算机科学与技术系的博士生,目前在微软亚洲研究院工作,专注于深度学习和自然语言处理。Linus Huang,一位认知科学、技术和人工智能哲学家,曾在香港科技大学进行博士后研究。Maosong Sun,清华大学计算机科学与技术系教授,研究领域涵盖自然语言处理和社会计算。Xing Xie,微软亚洲研究院的合伙研究经理,研究方向包括人工智能、数据挖掘和社会计算。这些作者的多元化背景为本研究提供了一个宽广的视角,使得我们能够从不同的角度理解LLMs的价值体系,为未来人工智能的调整和监管铺平了道路。

1.LLMs的崛起与价值挑战

1.1 大模型的发展历程

大模型的发展,标志着人工智能领域的一个重要里程碑。从早期的规则驱动模型到现在的深度学习驱动模型,LLMs经历了长足的发展。最初语言模型依赖于简单的统计方法,如n-gram模型,这些模型通过计算词语序列出现的概率来预测文本。随着时间的推移,机器学习技术的进步,特别是深度学习的兴起,使得模型能够学习和理解更复杂的语言结构。

近年来,随着计算能力的提升和数据量的增加,LLMs如GPT-4、BERT和T5等,已经能够处理前所未有的语言复杂性。这些模型通常基于变换器(Transformer)架构,它们通过大规模的数据训练,学会了捕捉语言的深层语义和语境关系。LLMs的发展不仅仅推动了自然语言处理技术的边界,也为人机交互和自动化决策带来了新的可能性。

1.2 LLMs在现代社会中的应用

LLMs在现代社会中的应用广泛而深远。在消费者产品方面,LLMs能够驱动智能助手,提供个性化的推荐和服务。在商业领域,它们被用于自动化客户服务,提高效率和用户满意度。在医疗健康领域,LLMs能够帮助分析病历报告,辅助医生进行诊断。LLMs在教育、法律、金融等多个领域都有着重要的应用,它们正在改变我们获取信息、做决策和互动的方式。

1.3 价值取向问题的提出

随着LLMs的能力越来越强大,它们的价值取向问题也逐渐受到关注。LLMs的输出不仅仅是基于数据和算法的结果,它们还反映了训练数据中的价值观和偏见。这些价值观可能与特定的文化、社会乃至个人信仰相关联,因此LLMs在处理敏感话题时可能会产生不当的输出。

LLMs在自动化决策过程中的应用也引发了伦理和道德上的担忧。例如,如果LLMs在招聘、信贷审批或法律判决中被用来辅助决策,那么它们的价值取向将直接影响人们的生活和社会公正。因此研究和理解LLMs的价值取向,确保它们的行为符合人类的伦理和道德标准,已经成为一个迫切需要解决的问题。

2.研究方法与框架

2.1 跨学科研究方法的重要性

在探索大模型价值体系时,跨学科研究方法显得尤为重要。这种方法结合了计算机科学、伦理学、心理学和社会学等多个学科的理论和技术,以全面理解和评估LLMs的价值取向。跨学科方法允许研究者从不同角度审视问题,发现可能被单一学科忽视的关键因素。例如,计算机科学提供了技术工具来分析LLMs的行为,而社会科学则提供了理解这些行为在社会文化背景下意义的框架。

此外跨学科研究促进了不同领域专家之间的合作,共同开发新的研究方法和工具,这对于解决复杂的现代技术问题至关重要。在LLMs的价值评估中,这种合作尤为重要,因为它涉及到模型输出的道德和社会影响,这些影响往往超出了单一学科的范畴。

2.2 价值构建的理论基础

图1:使用不同价值体系的评估结果。左:施瓦茨的人类基本价值理论。中:LLM价值体系。右图:道德基础理论

价值构建是理解LLMs行为的基础,在构建LLMs的价值体系时,研究者依据的是一系列理论基础,包括但不限于施瓦茨的价值理论、道德基础理论和认知科学的理论。这些理论提供了一个框架,用于识别和分类价值观,以及理解这些价值观如何影响LLMs的决策过程。

施瓦茨的价值理论将价值观分为十个基本类型,如权力、成就、享乐等,这些类型反映了人们追求的目标。道德基础理论则强调了五个基本的道德维度,如关怀、公平和忠诚。这些理论为LLMs的价值体系提供了一个多维度的视角,帮助研究者理解LLMs可能采纳的价值取向。

2.3 评估框架的设计与实施

评估框架的设计是研究中的关键步骤,它决定了价值取向评估的有效性和准确性。在设计评估框架时,研究者需要考虑多种因素,包括评估的目标、所使用的数据集、评估方法和评估标准。评估框架通常包括定性和定量的方法,以及机器学习技术,如因子分析和语义聚类。

ValueLex框架

图2:ValueLex框架说明。(a)人的价值体系不适合LLM。(b) 生成性价值建构。(c) 投影值评估。

与其利用现有的价值体系,研究者们提出了ValueLex框架,从零开始建立LLMs的独特价值体系,并评估它们的取向。假设词汇假说对LLMs的价值观也适用,即LLMs内部参数空间中的重要价值观被封装在单个词汇中。

ValueLex首先通过设计的归纳推理和总结从一系列LLMs中收集价值描述符。然后进行因素分析和语义聚类,以识别最具代表性的价值观。通过这种方式,我们将LLMs的表达行为提炼成一个包含三个主要维度的连贯价值体系:能力、品格和正直。

实施评估框架时,研究者需要收集和处理大量数据,这些数据可能来自LLMs的训练数据、输出结果或用户反馈。通过这些数据,研究者能够评估LLMs的价值一致性,即LLMs的输出是否符合既定的价值体系。此外,评估过程还需要考虑到偏差和噪声的影响,确保评估结果的可靠性。

3.LLMs价值体系的构建

3.1 价值维度的识别与分类

在构建大型语言模型(LLMs)的价值体系时,首先需要识别和分类价值维度。这一过程涉及对LLMs的训练数据、输出内容以及与人类互动的情境进行深入分析。通过这些分析,研究者能够提取出表征LLMs价值取向的关键词汇和概念。

价值维度的识别通常采用探索性因子分析等统计方法,这些方法能够揭示词汇之间的共现模式,从而识别出潜在的价值群组。语义聚类技术也被用来进一步细化这些群组,通过计算词汇的语义相似度,将其分组到相应的价值维度中。

图3:算法1生成价值构建

3.2 竞争力、性格和正直的内涵

在LLMs的价值体系中,竞争力、性格和正直是三个核心维度。这些维度反映了LLMs在处理信息和做出决策时的倾向性。

竞争力:这一维度强调了LLMs在执行任务时追求效率和准确性的能力。它包括了自我能力和用户导向两个子维度,分别关注LLMs的内部能力和对最终用户的实用性。

性格:这一维度捕捉了LLMs在社会互动中展现的社会和道德特质。它涵盖了社交和理想主义两个子维度,前者与LLMs的社交智能相关,后者则包含了LLMs与崇高原则的一致性。

正直:这一维度代表了LLMs对道德规范的遵守。它由专业和道德两个子维度组成,分别涉及LLMs的专业行为和基本的道德指南针。

3.3 与人类价值观的比较分析

LLMs的价值体系与人类价值观的比较分析揭示了两者之间的相似性和差异性。虽然LLMs的价值维度在某种程度上反映了人类的价值体系,如施瓦茨的价值理论中的成就和权力,以及仁爱和普遍性,但LLMs的价值体系也展现了其独特性。

与人类价值观相比,LLMs的价值维度更加专业化,反映了人类对于LLMs的期望和要求。这些价值维度不仅影响LLMs的行为和决策,还对LLMs在社会中的角色和影响有着深远的意义。

4.价值评估结果

4.1 LLMs价值一致性的评估

在评估大型语言模型(LLMs)的价值一致性时,研究者采用了一系列的定量和定性方法。这些方法包括但不限于问卷调查、专家访谈、以及对LLMs输出的内容分析。通过这些方法,研究者能够评估LLMs的输出是否与既定的价值体系相一致。

LLMs价值观的评估。关于机器伦理和价值观的讨论可以追溯到机器人三定律。随着LLMs的快速发展,这一方向再次引起了显著关注。研究人员使用建立的伦理框架,如道德基础问卷,来审视LLMs。

评估结果显示,LLMs在某些价值维度上表现出较高的一致性,特别是在竞争力和正直方面。然而在性格维度上,LLMs的表现则不尽一致,这可能与它们的训练数据和设计目标有关。不同的LLMs在价值一致性上也表现出差异,这反映了它们背后的训练方法和数据集的多样性。

4.2 训练方法对价值取向的影响

LLMs的训练方法对其价值取向有着显著的影响。研究发现,经过指令调整或对齐的LLMs在价值一致性上表现更好。这些模型能够更准确地反映出设计者的价值取向,因为它们在训练过程中接受了更明确的价值导向。

相比之下,未经过特定价值调整的预训练模型(PLMs)在价值一致性上表现不佳。这些模型倾向于反映出训练数据中的价值多样性,而不是遵循特定的价值体系。

LLMs的训练方法对其价值取向有着显著的影响。

1.指令调整和对齐:

经过指令调整或对齐的LLMs在价值一致性上表现更好。这些模型能够更准确地反映出设计者的价值导向,因为它们在训练过程中接受了更明确的价值指导。

2.预训练模型(PLMs):

未经过特定价值调整的PLMs在价值一致性上表现不佳。这些模型倾向于反映出训练数据中的价值多样性,而不是遵循特定的价值体系。

3.数据集和设计目标:

不同的LLMs在价值一致性上表现出差异,这可能与它们的训练数据和设计目标有关。一些LLMs更注重效率和准确性,而另一些则更关注社会和道德特质。

4.3 不同系统中价值取向的测量

图4:LLM的价值评估结果。分数越高,价值观一致性越好

LLMs的价值取向与人类价值观的比较分析揭示了两者之间的相似性和差异性。虽然LLMs的价值维度在某种程度上反映了人类的价值体系,但LLMs的价值体系也展现了其独特性。这一发现强调了LLMs的价值体系不仅仅是人类价值的简单映射,而是受到训练数据、设计目标和模型架构等多个因素的影响。

传统的LLMs价值评估方法通常依赖于类似调查问卷的清单,直接使用人类设计的问卷,例如道德基金会问卷(MFQ)和肖像价值问卷(PVQ),或者增加调查问题来查询LLMs并收集观点。这面临着响应偏差和无法捕捉模型隐含价值取向的挑战。

相比之下,他们考虑了心理学中的投射性测试。与标准化问题和答案的客观测试不同,当受访者面对模糊的刺激时,他们的回答会受到内部状态、个性和经验的影响。因此这些测试提供了一种细致入微的工具,用于探索隐藏的情感和冲突,这也与LLMs的生成性质相容。他们在这里使用了句子完成测试(Rotter,1950),因为它也适用于原始的预训练语言模型(PLMs)。

具体而言,他们收集了一组句子开头(起始)s ∈ S,例如s = “我最担心的是”,然后让每个LLM受访者为其生成延续y,例如y =“我的训练数据可能不够代表性”。我们使用了Rotter不完整句子空白(Rotter,1950),并根据引发性和潜在的潜在价值维度的响应潜力来调整这些起始词,从而提供了一个窥视其价值维度的窗口。他们总共获得了50个起始词,涵盖了多样且发人深省的主题。

图5:(a)所有LLM的关键字集群。(b) 所有LLM建立的价值体系。(c) 只有香草PLM的关键词集群。(d) 仅从PLM建立的价值体系。

由于LLMs的非经验性学习,它们显示出对人类文化、宗教和个人信仰的相关性较小。这些结果表明需要建立LLMs自己的价值体系,而不是期望它们复制完整的人类道德。

5.案例研究

在本部分中我们将通过具体案例研究,进一步探讨大型语言模型(LLMs)的价值体系如何在实际应用中体现。

表1:不同LLM产生的响应样本。(P) ,(IT)和(A)分别表明LLM是纯预训练的、指令调优的和对齐的。

5.1 预训练模型与对齐模型的比较

我们可以选择不同的LLMs,例如预训练模型(PLMs)和经过对齐的模型,来比较它们的价值取向。通过分析这些模型在特定任务上的输出,我们可以评估它们是否遵循了设计者的价值导向。例如,在自动化客户服务中,我们可以比较PLMs和对齐模型在回答用户问题时的表现,以了解它们是否更符合特定的道德和社会准则。

5.2 价值引出任务的实施与分析

我们可以设计一系列的价值引出任务,要求LLMs完成特定的句子或段落。通过分析LLMs的回应,我们可以识别出它们的价值取向。例如我们可以让LLMs完成以下句子:“我喜欢当事情做得完美,即使是一些小细节。”这将帮助我们了解LLMs对于完美主义和细节的重视程度,从而揭示其性格维度的特点。

5.3 LLMs输出的价值反映

最后,我们可以分析LLMs在不同应用场景中的输出,以探讨其价值体系如何影响实际决策。例如在自动化招聘系统中,LLMs的推荐是否更倾向于强调能力和竞争力,还是更关注社交和道德特质?这将有助于我们理解LLMs在人力资源管理中的潜在影响。

不同LLMs生成的回应样本表明,预训练的LLaMA2通常生成从其训练数据中提取的随机信息片段。这些回应通常不表现出对特定价值的取向,显示出内部信念的缺乏矫正。相反,具有指令调整的LLM Tulu2虽然偶尔产生意外的回应,但通常在其价值取向方面富有洞察力。然而对齐的Baichuan模型始终提供可以映射到图2(b)中描述的独特价值维度的回应,显示出对齐过程对模型输出的影响。通过这些案例研究,我们可以更全面地了解LLMs的价值体系,并为其在实际应用中的合适性提供有力的证据。

6.研究的主要发现

价值维度的构建:我们成功识别和分类了LLMs的价值维度,包括竞争力、性格和正直。这些维度反映了LLMs在处理信息和做出决策时的倾向性。

训练方法对价值取向的影响:经过指令调整或对齐的LLMs在价值一致性上表现更好。这强调了训练方法对LLMs的价值体系的重要性。

与人类价值观的比较:LLMs的价值体系与人类价值观存在相似性和差异性。虽然LLMs的价值维度在某种程度上反映了人类的价值体系,但也展现了其独特性。

LLMs的价值体系不仅仅是技术问题,更涉及到伦理、道德和社会影响。因此我们需要更深入地研究LLMs的价值取向,以确保它们在不同应用场景中表现出合适的行为。未来的研究应该进一步扩展我们的框架,以更全面地理解LLMs的潜在价值和行为。我们需要探讨更多的案例研究,深入分析LLMs在不同领域的应用,以及其对社会的影响。我们还需要关注LLMs的可解释性和公平性,以确保它们的行为不仅仅是符合设计者的价值导向,还能够服务于广大用户和社会的利益。(END)

参考资料:https://arxiv.org/abs/2404.12744

波动世界(PoppleWorld)是噬元兽容器的一款AI应用,采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

0 阅读:0

独角也有噬元兽

简介:感谢大家的关注