这篇博士论文提出了忠实度可度量模型和自解释两种新范式,以增强自然语言处理模型解释的忠实度,并解决了当前可解释性方法的局限性。
原文标题:【博士论文】面向忠实度的新型可解释性范式在自然语言处理中的应用
原文作者:数据派THU
冷月清谈:
为此,论文提出了两种新的范式:
1. **忠实度可度量模型(FMMs)**: 该范式对模型训练过程进行修改(例如,随机遮蔽输入标记),使得可以使用“忠实度擦除指标”来评估解释的忠实性。通过这种方式,可以优化解释以达到更高的忠实度,从而间接地实现模型的可解释性,而无需对模型架构进行限制。
2. **自解释**: 这种范式将解释直接作为模型的输出生成,例如聊天系统用自然语言解释其行为。尽管这种方式更为直观,但评估自解释的忠实度仍具有挑战性,需要进一步研究。
论文通过实验发现,解释的忠实度通常与模型和任务相关。然而,即使对模型进行简单的修改(例如在FMMs中使用的随机遮蔽),也能显著影响解释的忠实度。论文最后提出了一些建议,以期通过自解释实现更可靠的可解释性。
怜星夜思:
2、自解释范式虽然很有前景,但如何有效地评估其忠实度仍然是一个难题。除了论文中提到的方法,还有什么其他的思路或方法可以用来评估自解释的忠实度?
3、论文中提到忠实度通常与模型和任务相关。这是否意味着我们无法找到一种通用的忠实度评估方法,而只能针对特定的模型和任务进行评估?
原文内容
来源:专知本文约2000字,建议阅读5分钟
本文提出了两种潜在的范式,即“忠实度可度量模型”(FMMs)和“自解释”。