加州大学伯克利分校、麻省理工学院联合团队揭开Transformer黑箱

独角也有噬元兽 2024-07-06 14:17:50

自从 2017 年 Vaswani 等人提出 Transformer 模型以来,这种架构迅速成为深度学习领域的主流。Transformer 模型以其在自然语言处理(NLP)任务中的卓越表现而闻名,如机器翻译、文本生成和问答系统等。其核心机制——自注意力机制(self-attention)——使得模型能够有效地捕捉输入序列中不同位置之间的依赖关系,从而实现了前所未有的性能提升。

尽管 Transformer 模型展示了强大的预测能力,它们却常常被视为“黑箱”。这是因为 Transformer 模型内部的复杂非线性关系使得人们难以理解其决策过程。具体来说,模型如何从输入特征中提取信息并做出预测,这一过程对用户和研究人员来说往往是不可见的。这种缺乏透明度的问题在高风险领域尤为突出,因为在这些领域中,模型的错误决策可能带来严重的后果。

Transformer 模型在医学和科学等高风险领域的应用日益广泛。例如,在医学影像分析和蛋白质结构预测等任务中,Transformer 模型已经展示了其巨大的潜力。然而,这些领域对模型的可靠性和可解释性有着更高的要求。理解模型的内部工作原理不仅有助于提高模型的透明度和可信度,还能帮助研究人员和从业者识别和修正模型中的潜在错误,从而降低风险。

在医学领域,模型的决策可能直接影响患者的诊断和治疗方案。因此,确保模型的决策过程透明且可解释,对于保障患者安全至关重要。同样,在科学研究中,理解模型的行为有助于研究人员更好地利用模型进行实验设计和数据分析,从而推动科学发现。

为了应对上述挑战,最新发表的论文《Mechanistic Interpretation through Contextual Decomposition in Transformers》提出了一种新的解释方法,称为 Transformer 的上下文分解(Contextual Decomposition for Transformers,简称 CD-T)。CD-T 方法旨在实现 Transformer 模型的机械解释,即通过分析模型内部组件的贡献来解释模型的行为。

研究团队是由加州大学伯克利分校电气工程与计算机科学系(Department of EECS, UC Berkeley)、麻省理工学院计算机科学与人工智能实验室(CSAIL, MIT)和加州大学旧金山分校不同领域的专家组成,结合了计算机科学、人工智能、统计学和医学等多学科的知识和经验,他们共同致力于提高深度学习模型的解释性,特别是在高风险领域如医学中的应用。他们研发的CD-T 方法能够捕捉输入特征组合或内部组件(如注意力头、前馈网络)对最终预测或任何目标内部组件输出的贡献。与之前用于循环神经网络(RNN)和卷积神经网络(CNN)的上下文分解方法相比,CD-T 方法在计算效率和解释能力方面都有显著提升。

论文的主要贡献包括:

CD-T 方法的开发:将上下文分解方法推广到 Transformer,使其适用于更广泛的模型和数据类型。机械解释:不仅分析输入特征对最终预测的贡献,还分析内部组件对最终预测或目标内部组件输出的贡献。电路发现算法:提出了一种计算效率高的电路发现算法,展示了在真实世界病理报告分类任务中的应用,效率比之前的基准方法提高了 2 倍。

论文文展示了 CD-T 方法在提高 Transformer 模型解释性和信任度方面的潜力,特别是在高风险领域中的应用价值。希望论文的研究能够为未来的模型解释方法提供新的思路,并推动 Transformer 模型在各个领域的安全和可靠应用。

相关工作

随着深度学习模型在各个领域的广泛应用,解释这些模型的需求也日益增加。解释方法的研究涵盖了多种技术,包括对抗性技术、输入归因方法和机械解释方法等。

对抗性技术通过生成对抗性样本来测试模型的鲁棒性和解释其行为。例如,Carmichael 和 Scheirer(2023)以及 Chen 等人(2019)提出的方法,通过对输入数据进行微小扰动,观察模型输出的变化,从而揭示模型的敏感性和潜在的漏洞。

输入归因方法旨在确定输入特征对模型预测的贡献。常见的方法包括基于梯度的归因方法(如 Sundararajan 等人,2017;Springenberg 等人,2014;Selvaraju 等人,2016;Baehrens 等人,2009),分解方法(如 Murdoch 和 Szlam,2016;Shrikumar 等人,2016;Bach 等人,2015)以及其他方法(如 Dabkowski 和 Gal,2017;Fong 和 Vedaldi,2017;Ribeiro 等人,2016;Zintgraf 等人,2017)。这些方法通过计算输入特征对模型输出的影响,帮助理解模型的决策过程。

机械解释方法通过分析模型的内部组件及其相互作用来解释模型的行为。例如,Zhao 等人(2020)和 Wang 等人(2023)提出的方法,通过研究模型内部的计算子图(电路),揭示模型的内部工作原理。

局部解释方法主要集中在解释模型对单个输入样本的预测。这些方法通常通过计算输入特征的重要性分数,帮助用户理解模型的决策过程。然而这些方法也存在一些局限性。

大多数局部解释方法仅能提供特征级别的重要性分数。例如,在图像分类任务中,这些方法可以指出哪些像素对模型的预测最重要,但无法解释这些像素之间的相互作用。

一些局部解释方法仅适用于特定类型的模型。例如,基于梯度的方法通常适用于卷积神经网络(CNN),而对于循环神经网络(RNN)和 Transformer 模型,其效果可能不佳。

局部解释方法通常只能解释单个预测,而无法提供对模型整体行为的全面理解。这在高风险领域中尤为重要,因为模型的整体行为可能对决策过程产生重大影响。

机械解释方法旨在通过分析模型的内部组件及其相互作用,提供对模型行为的全面理解。这些方法在解释深度神经网络方面具有重要意义,但也面临一些挑战。

特征学习的理解:Olah 等人(2017)和 Elhage 等人(2022)等研究集中在理解深度神经网络学习到的特征。这些研究通过可视化和分析模型的内部表示,揭示了模型如何从输入数据中提取信息。

数学框架的开发:Elhage 等人(2021)提出了一种数学框架,用于理解深度神经网络的内部工作原理。这些框架通过形式化模型的计算过程,帮助研究人员更好地理解模型的行为。

电路发现:Nanda 等人(2023)、Cammarata 等人(2021)和 Chughtai 等人(2023)等研究集中在发现深度神经网络中的计算子图(电路)。这些研究通过分析模型的内部组件及其相互作用,揭示了模型的计算过程。然而,现有的电路发现方法通常需要大量的特征可视化和多次推理运行,耗费大量的手动努力和计算资源。

论文提出的上下文分解(CD-T)方法在现有研究的基础上,提供了一种高效且通用的解释方法,能够实现 Transformer 模型的机械解释。CD-T 方法的独特性体现在以下几个方面:

局部解释和机械解释的结合:CD-T 方法不仅能够提供对单个预测的局部解释,还能够分析模型内部组件的相互作用,实现机械解释。这使得 CD-T 方法在解释 Transformer 模型方面具有更广泛的应用。

计算效率的提升:与现有的电路发现方法相比,CD-T 方法通过一次推理运行即可测量内部组件的直接影响,大大提高了计算效率。实验结果表明,CD-T 方法在构建电路时的计算效率几乎是路径修补方法的两倍。

广泛的适用性:CD-T 方法适用于各种标准的 Transformer 模型和数据类型,具有广泛的适用性。无论是用于医学影像分析还是文本分类任务,CD-T 方法都能够提供可靠的解释结果。

实验验证:论文通过在 BERT 模型上的实验验证,展示了 CD-T 方法在提高 Transformer 模型解释性和计算效率方面的有效性。实验结果表明,CD-T 方法不仅能够更准确地识别注意力头的电路,还能够在 SST-2 和 AGNews 数据集上展示其在本地解释中的能力。

研究团队提出的 CD-T 方法在现有研究的基础上,提供了一种高效且通用的解释方法,能够实现 Transformer 模型的机械解释。通过结合局部解释和机械解释,CD-T 方法为理解和解释 Transformer 模型提供了新的思路,特别是在高风险领域中的应用价值。

方法

CD-T 的基本原理

CD-T 将输入或 Transformer 任意层的激活分解为两个部分:一个反映源激活的贡献,另一个反映网络其余部分的贡献。这种方法适用于基于 BERT 的模型,并可以推广到更一般的基于注意力的模型,包括仅解码器模型如 GPT-4。

Transformer 模型的基本操作:输入通常表示为一个标记序列,第一个标记是分类标记 [CLS]。每个标记的嵌入通过一系列编码器模块传播,编码器模块的关键组件是自注意力模块。自注意力模块由多个独立的注意力头组成,每个注意力头计算输入序列的加权和。注意力头的输出现在由以下方程定义:

在上面的显示中,最后一个等式将注意力头的输出计算为值向量vj与第i个查询向量qi与关键向量kj的内积所确定的权重的线性组合。将每个注意力头的输出进行叠加,得到自注意力模块的输出。

上下文分解在 Transformer 中的实现:CD-T 通过模型传播输入的分解,定义了一组规则来确定模块输出的分解。对于逐元素 ReLU 激活函数,输出分解为相关部分和不相关部分。在 Transformer 中,假设输入到注意力头的分解为

计算注意力头输出的分解为

这部分内容介绍了通过上下文分解(CD-T)进行 Transformer 模型机械解释的算法。以下是摘要的要点:

电路定义:将模型视为一个计算图,其中节点表示模型组件的激活,边表示组件之间的相互作用。电路是计算图的一个子图,负责某些组件的行为,如预测任务的输出 logits。给定输入 x,电路通过消除不属于电路的组件的影响,解释目标组件的行为。

算法步骤:从网络的输出 logits 开始,迭代识别重要的内部组件,逐层构建电路。在每次迭代中,定义源组件 s和目标接收器 R,测量 s对 R的直接影响。通过一次推理运行,计算s对 R的直接影响,从而提高计算效率。

计算效率:CD-T 通过一次推理运行即可测量内部组件的直接影响,比路径修补方法提高了两倍的计算效率。通过数学分解任意内部组件的激活,将其相关部分和不相关部分分开,并在一次推理运行中传播分解结果。

算法实现:初始化电路和电路层计数器,从输出 logits 开始,迭代识别重要的注意力头,构建电路。直到没有上游注意力头为止,返回最终电路。

这部分内容展示了 CD-T 方法在构建电路时的具体实现细节及其计算效率的提升,为后续实验和结果分析提供了基础。

实验结果

实验设置

数据集

病理报告数据集:为了验证 CD-T 方法在实际应用中的有效性,研究团队收集了 2907 份结构化病理报告。这些报告来自 2001 年至 2018 年期间在加州大学旧金山分校(UCSF)接受前列腺癌根治性前列腺切除术的患者。每份报告平均包含 471 个标记。由于患者信息保护,这些数据集未公开,但研究团队在附录中提供了一些匿名样本作为示例。

SST-2 数据集:斯坦福情感树库(Stanford Sentiment Treebank, SST-2)是一个用于情感分类的标准数据集,包含带有情感标签的电影评论。该数据集用于验证 CD-T 方法在简单二分类任务中的表现。

AGNews 数据集:AGNews 是一个新闻分类数据集,包含四个类别(世界、体育、商业和科技)的新闻文章。该数据集用于验证 CD-T 方法在更复杂的文本分类任务中的表现。

模型

研究团队在 BERT 模型上进行了微调,以评估 CD-T 方法的性能。具体来说:

病理报告数据集:研究团队对 BERT 模型进行了微调,用于主要 Gleason 评分分类任务。模型在该任务上的准确率达到了 85.8%。

SST-2 和 AGNews 数据集:研究团队使用了 TextAttack 上提供的预训练 BERT 模型,并在 SST-2 和 AGNews 数据集上进行了微调。微调后的模型在 SST-2 数据集上的准确率为 92.4%,在 AGNews 数据集上的准确率为 95.1%。

电路发现实验

目标

本实验的目标是构建用于 Gleason 评分分类任务的注意力头电路,并评估 CD-T 方法在该任务中的性能。研究团队将 CD-T 方法与之前的路径修补方法(path patching)进行了比较,重点评估计算效率和电路的忠实度。

电路可视化

图1:病理报告中格里森初级分类的电路可视化。电路的每个级别由一个黄色框表示,该框指定提取的确切注意力头([(层,标记位置,头位置)],索引从0开始)和该级别的有影响力的词簇的可视化。每个单词聚类可视化中的灰色圆圈区域指示该单词的平均注意力得分。圆圈越大,一个词对某一级别的影响力就越大。

研究团队通过检查每层注意力头组关注的词汇簇,展示了电路的功能及其层次结构。具体步骤如下:

计算平均注意力图:对于每层的注意力头组,计算其平均注意力图,并标准化该图。选择高分词汇:选择注意力分数高于平均值 2-3 个标准差的词汇。词汇聚类:将选定的词汇转换为 word2vec 嵌入,并进行主成分分析(PCA)和 k-means 聚类,以获得每个注意力头组的影响词汇簇。

结果显示,不同层的注意力头组编码了报告中不同方面的知识,并且这些知识在模型中层次化地结构化。例如,靠近输出 logits 的注意力头组更关注辅助词汇和标点符号,而在更深层次的注意力头组中,Gleason 评分(如“3”、“4”、“5”)变得更具影响力。

计算效率

研究团队比较了 CD-T 方法和路径修补方法在构建电路时的计算效率。结果表明,CD-T 方法在计算效率上显著优于路径修补方法。具体来说,CD-T 方法在构建电路每层的平均运行时间为 1:52:20,而路径修补方法为 3:37:26。这是因为 CD-T 方法通过一次推理运行即可测量内部组件的直接影响,从而将计算效率提高了两倍。

忠实度

忠实度衡量电路在多大程度上能恢复完整模型的性能。研究团队通过计算电路在 200 份病理报告样本上的恢复百分比来评估忠实度。结果显示,CD-T 方法构建的电路能够恢复 46.0% 的完整模型性能,而路径修补方法仅能恢复 41.9%。此外,随机选择注意力头形成的电路(Random (N))的忠实度显著低于 CD-T 和路径修补方法,分别为 1.26% 和 1.08%。

局部解释实验

顶级短语识别

为了验证 CD-T 方法在局部解释中的能力,研究团队在 SST-2 和 AGNews 数据集上进行了顶级短语识别实验。具体步骤如下:

运行 CD-T:在每个样本上运行 CD-T 方法,提取出具有最高分数的短语。短语分类:将提取的短语按长度分类,并检查其是否反映了相应的情感或主题。

结果显示,CD-T 方法能够可靠地识别出反映相应情感的正面和负面短语。例如,在 SST-2 数据集上,CD-T 方法提取的正面短语包括“a beautiful madness”和“is brilliant as”,负面短语包括“but lead nowhere”和“the movie fails”。在 AGNews 数据集上,CD-T 方法提取的短语也能清晰地反映不同的主题(世界、体育、商业和科技)。

人类实验

图2:人体实验结果。A.受试者是否使用不同的解释方法正确识别了更准确的模型的二进制精度(受试者之间的平均值)。灰色虚线表示随机选择基线(50%)。B不同解释方法对受试者信任模型的程度的平均排名(从1到4,1是最值得信赖的)。

研究团队通过人类实验验证了 CD-T 方法在帮助用户识别准确模型和建立信任方面的效果。实验设计如下:

识别准确模型:受试者被要求根据给定的解释方法,识别出两个模型中更准确的一个。结果显示,CD-T 方法在帮助受试者识别准确模型方面优于 LIME 和 SHAP,表现与 Integrated Gradients(IG)相当。建立信任:受试者被要求根据解释方法对模型的信任度进行排名。结果显示,CD-T 方法在帮助受试者建立对模型的信任方面优于 LIME 和 SHAP,表现略优于或与 IG 相当。

实验结果表明,CD-T 方法在提高 Transformer 模型解释性、计算效率和用户信任度方面具有显著优势。通过结合局部解释和机械解释,CD-T 方法为理解和解释 Transformer 模型提供了新的思路,特别是在高风险领域中的应用价值。

讨论

论文提出的上下文分解(CD-T)方法在多个实验中展示了其在提高 Transformer 模型解释性和计算效率方面的显著优势。

解释性:CD-T 方法通过将输入向量分解为相关部分和不相关部分,并在模型中传播这种分解,能够捕捉输入特征组合或内部组件对最终预测的贡献。这种方法不仅能够提供对单个预测的局部解释,还能够分析模型内部组件的相互作用,实现机械解释。例如,在病理报告分类任务中,CD-T 方法能够识别出不同层次的注意力头组及其关注的词汇簇,展示了模型如何从报告中提取信息并做出预测。

计算效率:与传统的路径修补方法相比,CD-T 方法在计算效率上具有显著优势。实验结果表明,CD-T 方法在构建电路每层的平均运行时间为 1:52:20,而路径修补方法为 3:37:26。这是因为 CD-T 方法通过一次推理运行即可测量内部组件的直接影响,从而将计算效率提高了两倍。

忠实度:CD-T 方法在恢复完整模型性能方面也表现出色。实验结果显示,CD-T 方法构建的电路能够恢复 46.0% 的完整模型性能,而路径修补方法仅能恢复 41.9%。这表明 CD-T 方法不仅在计算效率上具有优势,还能提供更高质量的解释结果。

局部解释能力:在 SST-2 和 AGNews 数据集上的实验结果表明,CD-T 方法能够可靠地识别出反映相应情感或主题的顶级短语。这进一步验证了 CD-T 方法在局部解释中的有效性。

用户信任度:通过人类实验,研究团队验证了 CD-T 方法在帮助用户识别准确模型和建立信任方面的效果。结果显示,CD-T 方法在帮助受试者识别准确模型和建立对模型的信任方面优于 LIME 和 SHAP,表现与 Integrated Gradients(IG)相当。

CD-T 方法在提高 Transformer 模型解释性、计算效率和用户信任度方面具有显著优势。这些结果表明,CD-T 方法为理解和解释 Transformer 模型提供了新的思路,特别是在高风险领域中的应用价值。

尽管 CD-T 方法在多个方面展示了其优势,但当前研究仍存在一些局限性,需要在未来工作中加以改进和扩展。

论文的实验主要在病理报告数据集、SST-2 和 AGNews 数据集上进行,且使用的模型主要是 BERT。尽管这些数据集和模型具有代表性,但未来研究需要在更多样化的数据集和模型上验证 CD-T 方法的有效性,以确保其广泛适用性。

当前的电路构建算法需要手动定义每层提取的注意力头数量,并且每层提取的注意力头数量是固定的。这种手动设置可能会影响算法的灵活性和自动化程度。未来工作应开发更灵活和自动化的电路构建算法,以提高算法的适用性和效率。

论文主要讨论了基于注意力头的电路构建方法,而未涉及其他内部组件(如前馈网络、层归一化)的电路构建。未来研究应探索不同或异构内部组件的电路构建方法,以提供更全面的模型解释。

尽管论文展示了 CD-T 方法在多个实验中的有效性,但实验规模相对较小。未来研究应在更大规模的实验中验证 CD-T 方法的性能,以确保其在实际应用中的可靠性和稳定性。

基于当前研究的局限性,未来研究需要进行改进和扩展。

开发更自动化和灵活的电路发现算法,以减少手动设置的需求,提高算法的适用性和效率。例如,可以引入自适应机制,根据模型的复杂性和数据特征自动调整每层提取的注意力头数量。

探索不同或异构内部组件(如前馈网络、层归一化)的电路构建方法,以提供更全面的模型解释。这将有助于更深入地理解模型的内部工作原理,并提高模型的透明度和可信度。

在更多样化的数据集和模型上验证 CD-T 方法的有效性,以确保其广泛适用性。特别是在高风险领域(如医学和科学)中,验证 CD-T 方法在不同任务和场景中的表现,对于推动其实际应用具有重要意义。

在更大规模的实验中验证 CD-T 方法的性能,以确保其在实际应用中的可靠性和稳定性。这将有助于进一步推广和应用 CD-T 方法,并推动 Transformer 模型在各个领域的安全和可靠应用。

尽管 CD-T 方法在多个方面展示了其优势,但仍存在一些局限性。未来研究应在自动化和灵活的电路发现算法、不同内部组件的电路构建、多样化的数据集和模型验证以及大规模实验验证等方面进行改进和扩展,以进一步提高 CD-T 方法的适用性和有效性。(END)

参考资料:https://arxiv.org/html/2407.00886v1

波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

0 阅读:0

独角也有噬元兽

简介:感谢大家的关注