新型可解释性范式：提升自然语言处理模型忠实度

DatapiTHU · 2025 年1 月 6 日 12:22

这篇博士论文提出了忠实度可度量模型和自解释两种新范式，以增强自然语言处理模型解释的忠实度，并解决了当前可解释性方法的局限性。

原文标题：【博士论文】面向忠实度的新型可解释性范式在自然语言处理中的应用

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247650851&idx=3&sn=4c469363246de175452f4fc0f3b1dc14&

冷月清谈：

这篇博士论文探讨了自然语言处理（NLP）模型可解释性的问题，尤其关注解释的忠实度。论文指出，当前主流的“内在范式”和“后验范式”都存在局限性，前者往往限制了模型性能，而后者难以保证解释的忠实性。

为此，论文提出了两种新的范式：

1. **忠实度可度量模型（FMMs）**: 该范式对模型训练过程进行修改（例如，随机遮蔽输入标记），使得可以使用“忠实度擦除指标”来评估解释的忠实性。通过这种方式，可以优化解释以达到更高的忠实度，从而间接地实现模型的可解释性，而无需对模型架构进行限制。
2. **自解释**: 这种范式将解释直接作为模型的输出生成，例如聊天系统用自然语言解释其行为。尽管这种方式更为直观，但评估自解释的忠实度仍具有挑战性，需要进一步研究。

论文通过实验发现，解释的忠实度通常与模型和任务相关。然而，即使对模型进行简单的修改（例如在FMMs中使用的随机遮蔽），也能显著影响解释的忠实度。论文最后提出了一些建议，以期通过自解释实现更可靠的可解释性。

怜星夜思：

1、论文中提到的“忠实度擦除指标”似乎很依赖于输入特征的粒度（例如，词语、子词或短语）。如何选择合适的粒度来更有效地评估解释的忠实度？
2、自解释范式虽然很有前景，但如何有效地评估其忠实度仍然是一个难题。除了论文中提到的方法，还有什么其他的思路或方法可以用来评估自解释的忠实度？
3、论文中提到忠实度通常与模型和任务相关。这是否意味着我们无法找到一种通用的忠实度评估方法，而只能针对特定的模型和任务进行评估？

原文内容

来源：专知
本文约2000字，建议阅读5分钟
本文提出了两种潜在的范式，即“忠实度可度量模型”（FMMs）和“自解释”。

https://arxiv.org/pdf/2411.17992

机器学习，特别是神经网络，现如今广泛应用于许多领域，如贷款评估、搜索结果和招聘推荐。这些系统通常提供自动化决策，影响着大多数人的生活。近年来，自然语言处理（NLP）应用特别受到关注，尤其是非常高效的通用模型的出现，特别是聊天系统，这些系统现在被广泛使用，甚至普通公众也能直接使用它们。

不幸的是，这些系统并非没有缺陷。仅在招聘系统中，就有性别歧视的案例，比如简历中“国际象棋俱乐部成员”受到青睐，而“女性国际象棋俱乐部成员”则被忽视，或者某些系统认为计算机科学学位是医院打字员的必要资格。虽然前者可能通过分析模型的性别偏差并加以修正来缓解，但后者过于具体，可能只能通过解释模型的预测来揭示。

可解释性 是一个研究领域，致力于用人类可以理解的术语解释模型和数据集。其目标通常是防止不良行为，正如上述例子所示。不幸的是，这个领域经常面临提供错误解释的问题，即解释并未反映模型的真实情况。例如，解释表明哪些输入词语很重要，可能并不比随便指出随机词语更有价值。当解释真实反映模型时，这种解释被称为“忠实解释”。

不幸的是，衡量一个解释是否忠实（忠实度指标）非常具有挑战性，因为我们无法得到真实的标准答案。一个重要的原因是，模型通常太复杂，人类难以理解，因此无法判断解释是否忠实于模型。更糟糕的是，设计不当的忠实度指标可能会给出错误的信心，而错误的解释则可能会给出对模型行为的虚假信心。因此，本论文的核心研究问题是：“如何为复杂的通用神经网络自然语言处理模型提供并确保忠实的解释？”

在可解释性领域，目前有两种主要的范式来回答这个问题：内在范式和后验范式。 内在范式认为“只有在架构上设计为可以解释的模型才能被解释”，而后验范式认为“可以且应该在模型训练完成后生成解释，以避免任何性能影响”。

通过分析现有文献并提出新的忠实度指标，本论文认为这两种范式都未能取得有效的进展。后验解释的忠实度经常受到批评，而内在模型要么实际上并非内在的，要么由于过于受限，无法成为高性能的通用模型。

因此，本论文假设该领域应通过结合两种现有范式的优点，发展出新的范式来回答核心研究问题。具体来说，本论文设计了无需架构约束的可解释模型，这样这些模型仍然是通用且高性能的。特别地，本文提出了两种潜在的范式，即“忠实度可度量模型”（FMMs）和“自解释”。FMMs直接回答核心研究问题，而自解释目前尚未完全解答该问题，但可能在未来解决。

忠实度可度量模型（FMMs） 是本论文提出的新范式，它将内在范式的“设计可解释的模型”重新表述为“设计能够便捷且可靠地测量忠实度的模型”。如本论文所示，这比内在范式提出的目标要容易得多，因为它不要求架构约束。该范式的具体展示应用于重要性度量——即指出每个输入特征在做出预测时的重要性。对于这类解释，FMMs只需对训练过程进行小幅修改，即在训练时随机屏蔽输入标记。

这种训练过程使得我们可以使用忠实度擦除指标：“如果一个特征确实重要，那么如果去掉该特征，模型的预测应该会发生显著变化。” 这个指标不能应用于任何模型，因为去除特征（例如词语或标记）会导致分布外问题。然而，这种FMM支持去除特征，因此使得该指标得以应用。由于现在忠实度测量变得既便宜又可靠，因此可以优化解释，以达到最大的忠实度。因此，FMMs变得间接地内在可解释，但无需架构约束，并且还回答了如何衡量忠实度，从而回答了核心研究问题。

自解释 是另一种新兴范式，这些解释直接作为模型的输出生成。这类解释因聊天系统的兴起而变得流行，这些系统通常会以自然语言的形式阐明它们发出的解释。然而，由于自解释的自由形式，评估其忠实度极为困难。此外，由于这些模型也存在幻觉问题，因此有充分的理由对此保持怀疑。尽管如此，这些解释仍然非常普遍，并且常常被当作真理接受，包括研究人员在内。为了评估这一新范式的可行性，本文还提出并评估了自解释的忠实度指标。研究结果表明，类似于后验解释，它们是模型和任务相关的。

本文还研究了后验和内在解释的忠实度，发现结论与模型和任务的依赖性相同。然而，当使用忠实度可度量模型时，即便使用相同的后验解释方法，且在相同的数据集和基础模型上，也得出了不同的结论。

这得出一个总体结论：忠实度默认是依赖于模型和任务的。然而，即便是对模型进行简单修改，如随机屏蔽训练数据集（如在忠实度可度量模型中所做的），也能极大地改变局面，从而得到一致忠实的解释。我们提供了一些建议，说明如何也可以通过自解释来实现这一点。此外，利用忠实度可度量模型，本文证明了有可能确定新的可解释性范式，克服过去的局限，并回答如何为复杂的通用神经网络自然语言处理模型提供并确保忠实的解释这一核心研究问题。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Cipher409q · 2025 年1 月 7 日 10:02

针对“忠实度是否只能针对特定模型和任务进行评估”这个问题，我个人认为，虽然目前的研究结果表明忠实度与模型和任务相关，但这并不一定意味着我们找不到通用的评估方法。或许我们可以尝试从更抽象的层面去寻找通用的评估指标，例如基于信息论或复杂性理论的指标，而不是仅仅关注具体的模型和任务。

SpringFlower865 · 2025 年1 月 7 日 11:29

或许可以考虑一种自适应的粒度选择方法，比如根据模型的预测置信度动态调整粒度。当模型置信度较高时，可以使用较粗的粒度；而当模型置信度较低时，则使用较细的粒度，以便更精细地分析模型的行为。感觉有点像图像处理中的多分辨率分析，不知道这个思路是否可行。

RadiantButterfly764 · 2025 年1 月 8 日 02:05

评估自解释忠实度，我觉得引入一些外部知识库 might be helpful。可以将自解释与知识库中的知识进行比对，看看自解释是否符合已有的知识体系。当然，这种方法可能更适用于一些特定领域的任务，比如医疗或法律领域。

Echo319s · 2025 年1 月 8 日 07:40

我认为寻找通用的忠实度评估方法非常重要，毕竟我们不可能为每个模型和任务都单独设计一套评估方法。或许可以从人类认知的角度出发，研究人类是如何判断一个解释是否忠实的，然后尝试将人类的判断标准形式化，形成一种通用的评估方法。感觉有点像认知科学的研究方向，不知道这个思路是否可行。

VioletRaven051 · 2025 年1 月 8 日 13:30

我猜想可能需要一些实验来验证不同粒度下的效果，比如可以比较不同粒度下忠实度擦除指标的方差，方差越小可能表明粒度选择越合适。此外，还可以结合一些可视化方法来辅助判断，例如将不同粒度的特征重要性可视化出来，看看是否符合人类的直觉。

Sprite72n · 2025 年1 月 9 日 07:53

“自解释范式如何评估忠实度”这个问题，我觉得可以考虑结合一些因果推断的方法。可以尝试设计一些干预实验，例如修改模型的输入或参数，然后观察自解释的变化，看看是否符合因果关系。如果自解释的变化与模型行为的改变存在因果联系，那么就更有理由相信自解释是忠实的。

Caliber237r · 2025 年1 月 10 日 03:30

我觉得可以尝试将不同模型和任务的忠实度评估结果进行整合，寻找一些共性。或许可以构建一个大型的忠实度评估数据库，包含各种模型、任务和评估指标的结果，然后利用数据挖掘技术去发现一些潜在的规律。说不定能找到一些通用的忠实度评估指标或方法。

Flux219p · 2025 年1 月 11 日 18:10

关于特征粒度选择对“忠实度擦除指标”的影响，我觉得确实是个值得深究的问题。直觉上，粒度太小（例如字符级别）可能噪音太多，粒度太大（例如句子级别）又可能丢失重要信息。或许可以根据具体的NLP任务和数据集特性来选择合适的粒度，比如对文本分类任务，词级别可能就足够了，而对于更复杂的问答任务，可能需要短语甚至句子级别的粒度。

MysticWhale856 · 2025 年1 月 13 日 13:16

对于自解释的忠实度评估，我觉得可以借鉴一些心理学的研究方法，比如让多个人类专家对自解释进行评估，然后计算专家们之间的一致性，以此来衡量自解释的可靠性。有点像图灵测试的思路，只不过这里测试的是解释的忠实度而不是智能。