NeurIPS 2024：揭秘大模型知识机理——“知识回路”假说

DatapiTHU · 2024 年12 月 2 日 15:20

浙江大学&新加坡国立大学提出“知识回路”假说，揭示大模型知识表示机理，为构建更可靠AI提供新思路。#NeurIPS2024

原文标题：NeurIPS 2024 | 大模型知识表示的“知识回路”假说，深入理解大模型的知识机理

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247649007&idx=1&sn=76e52e53b480b0e108af103fa2c92edb&

冷月清谈：

浙江大学与新加坡国立大学的研究者们在NeurIPS 2024上提出了大模型知识表示的“知识回路”假说。该假说认为，大模型并非简单地存储知识，而是在处理知识的过程中，通过参数激活逐步形成闭合回路，以实体、概念和关系为核心要素，完成知识的表达。

研究者们通过分析Transformer模型的注意力机制和前馈网络，发现特定任务的知识存储并非依赖于模型的全部参数，而是分布在一个稀疏的子图——知识回路中。他们通过移除计算图中的边并观察模型预测结果的变化来识别构成回路的关键路径。实验表明，提取出的知识回路能够独立地表示知识，并在某些知识类型上甚至优于原始模型。

进一步的分析揭示了知识回路中不同注意力头的作用，例如Mover Head负责将信息移动到最终预测位置，Relation Head则关注关系信息。研究还探讨了知识回路在知识编辑、幻觉生成和情境学习中的作用。结果显示，不同的知识编辑方法会以不同的方式影响知识回路，而幻觉的产生往往与Mover Head的失效有关。在情境学习中，示范示例会激活新的注意力头，从而增强模型的推理能力。

“知识回路”假说为理解大模型的知识机理提供了新的视角，并为开发更可靠、可控的大模型学习架构和知识编辑方法奠定了基础。

怜星夜思：

1、“知识回路”假说与传统的知识图谱表示方法有什么区别和联系？
2、如何验证“知识回路”的普适性？是否适用于所有类型的语言模型？
3、“知识回路”的发现对未来大模型的开发和应用有哪些启示？

原文内容

本文约2700字，建议阅读9分钟
本文提出了大模型知识表示的“知识回路”假说。

一、引言

尽管大模型在常识、科学知识的理解及推理决策能力等方面已展示出较强的潜力，其仍面临幻觉等知识谬误问题，由此引发了一系列对大模型知识表示、存储和处理机理的深入探讨：大型模型的知识处理方式是否与人脑相似？其能力是否能超越人类？

知识图谱通过符号表示明确刻画实体和概念间的关系，而语言模型则依赖神经网络和注意力机制隐式关联知识元素。以多跳推理为例，知识图谱提供可解释、可控的显式路径，而语言模型在隐式参数空间中依赖注意力等权重找到答案，导致解释性和可靠性不足。

为深入理解大模型的知识机理，本文被提出大模型知识表示的“知识回路”（Knowledge Circuits）假说，认为大模型知识处理过程中的实体、概念和关系是通过参数激活逐步形成闭合回路，以助于发展更可靠、可控、安全的大模型知识学习架构和方法。

论文题目：

Knowledge Circuits in Pretrained Transformers

本文作者：

姚云志（浙江大学）、张宁豫（浙江大学），习泽坤（浙江大学），徐子文（浙江大学），王梦如（浙江大学），邓淑敏（新加坡国立大学），陈华钧（浙江大学）

发表会议：

NeurIPS 2024

论文链接：

https://arxiv.org/abs/2405.17969

代码链接：

https://github.com/zjunlp/KnowledgeCircuits

在线Demo：

http://knowledgecircuits.zjukg.cn/

二、大模型的知识回路发现

2.1 回路的定义

“回路”是指在神经网络模型中执行特定任务的一个可解释子图。目前，语言模型主要采用 Transformer 架构，可将其视为一个有向无环图 G。每个 Transformer 层包含多头注意力机制和前馈神经网络（MLP），并且每一层都是一个多头注意力机制和一个前馈网络的组合。

考虑一个注意力头（位于第 l 层的第 j 个注意力头），它对前一层的残差流进行操作。设，其中 I 表示输入嵌入，注意力头可被视为处理所有前层注意力头和 MLP 及输入嵌入的累积输出。

同样，MLP 节点处理所有前层的注意力头、MLP 和输入嵌入的累积输出，输出节点 O 则处理输入嵌入和所有注意力头及 MLP 的输出。Transformer 模型中的残差连接可以用以下公式表示：

我们专注于回答事实上的开放领域问题的任务，目标是预测给定主题-关系对（s, r）的目标实体 o。知识三元组 k = (s, r, o) 通常以自然语言提示的形式呈现给模型，用于下一个标记预测（例如，“法国的官方语言是____”）。

在回路的构建中，对于原始模型中的计算图的每一条边，我们计算了从计算图中删除该边后，语言模型预测 o 的 Logits 与移除之前的差异，如果对于预测性能影响在 Threshold 以内，则可以认为该边对于存储该知识并没有贡献，则去除该边，经过遍历后，我们则可以获得最终的知识回路。

在得到了知识回路后，我们该如何确保构建了准确的回路呢？这里，被发现的知识回路应该是 Transformer 知识存储中特定区域的准确表示，因此，它应该能够独立地表示知识。

为了验证构建的知识回路是否准确，我们使用验证数据集构建特定类型的知识回路，并在测试集上测试其性能。通过比较与原模型的性能变化，使用 Hit@10 指标评估目标实体 o 在前十个预测标记中的排名。

实验结果显示，构建的知识回路保留了语言模型大部分的能力，并在某些知识类型上有所提升，表明知识回路主要负责知识存储，避免了其他信息的干扰。

三、知识回路的分析

我们在知识回路中可以发现不同的类型的注意力头：Mover Head, Relation Head。Mover Head 会将相应位置信息的内容移动到模型的最后一个 Token 位置中，而 Relation Head 则会关注输入中的 Relation Token，在回路中提供关系相关的信息。

图中的例子中，经过分析不同层的输出后我们发现在 MLP 第 17 层之后，目标知识在信息流中作为 Top-one Token 出现，而在该层之后，其概率一直在增加。

从发现的回路中可以看出，连接到 MLP17 的边是（L14H13 -> MLP17），（L14H7 -> MLP17）和（L15H0 -> MLP17）。

在这里，L14H13 是一个 Relation Head，主要关注上下文中的关系令牌。这个头部的输出是与关系相关的标记，例如 Languages 和 language。

而注意头 L14H7 是一个 Mover Head，它将信息从主体的位置 France 移动到最后一个标记。最终，MLP17 集成了这些信息从而将最终结果 French 作为最终的 Top one 输出。

四、知识编辑情况下的知识回路的变化

“知识编辑”是近年来兴起的一项技术，旨在对语言模型中的特定知识进行精确修改。然而，当前的知识编辑方法存在一个普遍问题，那就是它们往往会对模型中的非编辑部分产生影响，即所谓的局部性不足。为了探讨这一问题，我们分析了知识编辑过程中知识回路的变化。

本研究中，我们选择了两种不同的编辑方法—— ROME 和 Fine-Tuning（FT），并在实验中均聚焦于 MLP 的第二个线性层进行编辑。通过具体案例的分析，我们观察到尽管 ROME 和 FT 都能有效地将新知识注入模型，但在知识回路层面，两种方法的工作机制有所不同。

对于像 ROME 这样的方法，我们注意到模型修改了称为 Mover Head 的组件的信息流动。编辑后，模型中的 Mover Head（如 L15H3）能够正确地提取出“Intel”这一信息，这意味着 ROME 是通过修改特定层的 MLP，使模型能够在最后一层 Token 的位置上获得正确的知识。

相比之下，FT 类方法似乎是在编辑层中就赋予了新知识较高的 Logit 值，这直接改变了模型对新知识的认知。这意味着在 FT 方法下，新知识在较早的编辑层中就已经具有较高的概率，从而影响了模型的最终输出。

然而，无论是 ROME 还是 FT，它们都未能完全避免对模型其他部分的影响。例如，在未经编辑的情况下，模型可以正确回答“创建 Windows Server 的公司”这一问题，但在经过知识编辑后，使用 ROME 和 FT 的模型都给出了错误的答案。

从知识回路的角度来看，编辑的信息似乎影响到了与之无关的知识回路，导致了意料之外的结果偏差。

五、幻觉与 In-Context Learning 情况下知识回路的现象

与此同时，我们还发现知识回路有助于理解语言模型中的幻觉现象以及 In-Context Learning（即情境学习，简称 ICL）的能力。

当知识回路中缺乏有效的 Mover Head，或者 Mover Head 选择了不正确的信息时，模型可能会产生幻觉。

例如，在提示 “The official currency of Malaysia is called the” 时，正确答案 “Ringgit” 和错误答案 “Malaysian” 在第 15 层之前的 rank 分布非常接近。然而，在第 16 层，Mover Head（L15H10）提取了 “Malaysian” 一词的信息，这导致模型最终输出了错误的答案。

而在 ICL 的场景中，我们的分析表明，相较于零样本学习（Zero-shot Learning），当加入示范示例（Demonstrations）时，知识回路中会出现一些新的注意力头。

如图中的案例所示，这些新的注意力头主要聚焦于示范示例的上下文中，例如 “The comparative of small is smaller”。这些注意力头的输出与任务的实际输出之间建立了紧密的联系，说明示范示例能够激活与任务相关的知识回路，从而提高模型的表现。

六、总结

在本文中，我们提出了大模型知识表示的“知识回路”假说，即稀疏的回路子图用来进行知识的存储、处理与表达。知识回路表明了语言模型的知识存储不仅仅是单独的模块，还存在着不同组件之间的协同合作。实验结果表明，知识回路不仅有助于我们更深入地理解模型的行为，还在构建更为稳健的知识编辑方法方面展现了巨大的潜力。

编辑：黄继彦‍‍‍

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Drift815m · 2024 年12 月 13 日 08:03

“知识回路”和知识图谱都是表示知识的方式，但它们的底层逻辑完全不同。知识图谱用符号来显式地表示实体和关系，而“知识回路”则是模型内部参数激活形成的隐式表示。可以理解为，知识图谱是人工构建的知识地图，而“知识回路”是大模型自己学习到的知识地图。两者可以互补，比如用知识图谱来指导“知识回路”的学习，或者用“知识回路”来解释知识图谱的推理过程。

OnyxHorse674 · 2024 年12 月 11 日 16:54

“知识回路”的发现为我们理解大模型的知识机制提供了一个新的视角。未来，我们可以通过干预“知识回路”来进行更精细的知识编辑，例如修复模型的幻觉、增强模型的推理能力等。此外，还可以利用“知识回路”来解释模型的决策过程，提高模型的可解释性和可信度。

Solace15k · 2024 年12 月 12 日 20:46

我觉得最大的启示在于，我们可以更有针对性地设计和训练模型。比如，通过引导模型形成更合理的“知识回路”，来提高模型的学习效率和泛化能力。还可以根据“知识回路”来诊断模型的问题，比如为什么会出现幻觉，从而改进模型的设计。

Beacon26j · 2024 年12 月 11 日 15:05

我觉得可以开发新的知识编辑方法，精准地修改“知识回路”，从而提高知识编辑的效率和准确性。还可以利用“知识回路”来构建更可解释的AI系统，让用户理解AI是如何进行推理和决策的。

CrystalBear411 · 2024 年12 月 12 日 15:46

论文中主要研究的是Transformer架构的语言模型，对于其他类型的模型，比如RNN或者CNN，是否适用还需要进一步研究。可以尝试将“知识回路”的提取方法应用到其他类型的模型中，看看能否找到类似的结构。此外，不同规模、不同训练数据的模型，“知识回路”的形态可能也会有所不同，这都需要进一步的实验验证。

SoaringEagle839 · 2024 年12 月 16 日 10:51

验证普适性是个好问题！我想除了尝试不同的模型架构（Transformer、RNN、CNN等），还需要考虑不同规模的模型（参数量）、不同的训练数据集（领域特定 vs. 通用）。如果在这些不同条件下都能找到类似的“知识回路”结构，那普适性就更有说服力了。

Pulse48v · 2024 年12 月 16 日 15:34

打个比方，知识图谱像是结构化的数据库，而知识回路则像是神经网络中的通路。前者是人工定义的，后者是模型自己学出来的。联系在于，我们可以通过知识图谱来辅助模型学习，使其形成更合理的知识回路。

LuckyRabbit007 · 2024 年12 月 17 日 06:49

我觉得可以从理论和实践两个方面来验证。理论上，可以分析不同模型架构的特性，看是否存在类似“知识回路”的机制。实践上，可以在不同的模型和数据集上进行实验，观察“知识回路”的提取效果和对模型性能的影响。

OnyxHorse674 · 2024 年12 月 17 日 14:45

知识图谱像图书馆的书架，知识点清晰摆放，查找方便，但缺乏灵活性。“知识回路”则像我们大脑中的神经网络，知识点之间相互关联，可以进行推理和联想，但解释性较差。未来或许可以结合两者的优势，让AI既能清晰地表达知识，又能灵活地运用知识。