大模型对齐告别微调，直接编辑表征空间即可解决

人工智能技术正在飞速发展，尤其是大语言模型在自然语言处理领域取得了令人瞩目的成就。但同时，我们也面临着如何让语言模型更符合人类意图、减少有害内容生成的挑战。

针对大模型对齐方向的挑战，本文提出了一种新颖的方法来解决这一难题。其核心思想是：将自回归语言模型看作一个离散时间随机动力系统，通过在其表征空间中引入控制信号，动态调整模型在生成过程中的行为，使之更加符合特定的对齐目标。与需要微调模型参数的方法不同，该方法只需训练一个简单的价值网络，并在测试时优化表征空间即可实现对齐，因而速度更快、资源占用更少。

实验表明，这一方法在保持生成质量的同时，显著提升了语言模型对无害性、有帮助性等人类偏好的契合度，并展现出了强大的泛化能力。

论文标题:Aligning Large Language Models with Representation Editing: A Control Perspective

论文链接:https://arxiv.org/pdf/2406.05954.pdf

3.5研究测试：hujiaoai.cn4研究测试：askmanyai.cn Claude-3研究测试：hiclaude3.com

大模型对齐困境

随着自然语言处理技术的飞速发展，预训练语言模型的规模不断增大，在各类任务上取得了令人惊艳的效果。然而由于训练数据的复杂性和多样性，这些模型可能会生成有害、无关或不符合人类意图的内容。如何让语言模型更好地与人类偏好保持一致，成为了一个亟待解决的问题。

目前主要有两类方法来实现语言模型对齐：微调和测试时对齐。微调方法如RLHF(Reinforcement Learning from Human Feedback)通过人类反馈数据训练一个奖励模型，再用强化学习技术去优化语言模型的策略。然而，这类方法存在训练不稳定且需要大量算力的问题。此外，每当面临新的数据或需求时，都需要重新微调模型，难以快速适应不断变化的应用环境。近年来也有研究提出了一些简化RLHF的方法如DPO，但仍难以避免大量计算资源的消耗。

测试时对齐方法如提示工程(prompt engineering)和受控解码(guided decoding)，无需改动模型参数，通过设计巧妙的提示或解码策略来引导模型生成更安全、更符合人类意图的内容。但由于这类方法并未改变语言模型本身，其对齐能力有限，效果很依赖原模型的性能。

此外，还有一类通过表征工程(representation engineering)实现模型对齐的方法。这类方法通过向语言模型的表征空间中添加扰动，在不改变模型参数的情况下调整其生成行为。已有工作证实，表征编辑在提高语言模型真实性、减少幻觉等方面有不错的效果。但已有方法大多采用添加固定扰动的方式，且未考虑语言模型生成过程的自回归特性。

如何在不牺牲效果的前提下，以更轻量化、更灵活的方式实现语言模型对齐，充分发挥大模型的生成能力，成为一个亟待探索的研究方向。

RE-CONTROL：测试时语言模型对齐新方法

针对上述问题，本文提出了一种全新的解决方案。该方法巧妙地利用了自回归语言模型与离散时间随机动力系统之间的联系，通过在语言模型的表征空间中引入外部控制信号，在测试时动态调整模型行为，使之更加符合特定的对齐目标。

具体来说，研究者将预训练的自回归语言模型看作一个离散时间随机动力系统，其行为由状态转移函数决定：

其中为每个时间步新生成的token，为之前时间步积累的键-值对，W为将logits 映射为词表概率分布的线性变换。生成过程不断进行，直到即停止。

传统语言模型缺乏直接的控制信号，因此研究者提出通过表征编辑的方式，在每个时间步为语言模型状态引入控制信号：

引入控制信号后，优化目标变为在获得最大期望奖励的同时，控制信号尽量小：

为实现上述优化，研究者首先在语言模型的状态空间训练一个价值函数。根据Bellman方程，其需要满足：

其中为奖励函数，可以基于人类反馈数据训练得到，也可以由启发式规则定义。

在测试时，研究者通过梯度上升的方式优化模型状态，寻找最优的控制信号：

由于价值网络结构简单(2-3层MLP)，优化过程非常高效。控制信号的大小可通过梯度步长和更新次数来隐式地加以约束。

下图展示了RE-CONTROL的整体框架，阐明了该方法如何利用表征编辑技术在测试时实现语言模型对齐。具体来说，整个过程分为以下几个部分：

未对齐的语言模型：左侧为一个预训练的自回归语言模型。给定输入提示，该模型会顺序生成输出序列。但由于训练数据的复杂性，生成内容可能存在有害或不符合人类偏好的问题。微调后的语言模型：上面右侧是经过微调对齐后的语言模型。通过参数更新，该模型能够生成更加安全、符合人类意图的内容，但是微调需要重新训练模型，代价较大。RE-CONTROL：首先，在语言模型的隐状态空间(黄色椭圆)上训练一个价值网络(紫色三角)，用于预测给定状态的期望奖励。在测试时，输入提示token(绿色方块)后，语言模型按照原有参数生成隐状态和输出token(蓝色方块)。但在每个时间步，RE-CONTROL通过优化隐状态(黄色椭圆变红)来最大化价值分数，得到控制信号并加到原有隐状态上，从而调整语言模型的生成行为,得到更加安全、有益的输出(红色方块)。

RE-CONTROL在测试时并不改变语言模型的参数，因此避免了耗时的微调过程。同时，由于价值网络结构简单，优化过程也非常高效。这为快速灵活地适应不同对齐需求提供了可能。

综上，RE-CONTROL利用最优控制的思想，通过训练价值函数并在测试时优化表征空间，动态调整语言模型的生成策略，在最小代价下实现对齐。这为解决大模型应用中的安全性难题提供了一个简洁优雅的思路。

实验验证

为全面评估RE-CONTROL的性能，研究者在广泛使用的HH-RLHF数据集上进行了一系列实验。该数据集包含16.1万个训练样本和8550个测试样本，用于提高AI助手的安全性和有益性。实验以Vicuna-7B和Falcon-7B作为基础模型，采用GPT-4对回复质量进行评分。

下表展示了RE-CONTROL与各种测试时对齐方法在HH-RLHF上的性能对比。RE-CONTROL在生成多样性(diversity)、连贯性(coherence)、平均奖励(average reward)、GPT-4评分(win rate)等指标上全面超越了提示工程(prompting)、静态表征编辑(Static RE)、受控解码(CD和CD prefix)等方法。RE-CONTROL+Prompting在Vicuna-7B上将GPT-4评分提高了22.7个百分点，在Falcon-7B上提高了20.3个百分点，充分证明了该方法的有效性。同时，RE-CONTROL的推理速度也远快于受控解码方法。