程序性知识：LLM推理能力的新视角

almosthuman2014 · 2024 年12 月 1 日 12:24

探讨程序性知识如何影响大规模语言模型的推理能力，为理解LLM提供新视角。

原文标题：Ilya 「Scaling What」的答案会是程序性知识吗？

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650945050&idx=3&sn=7ad2b2c107654196409b1861a626a7d8&

冷月清谈：

本文探讨了程序性知识在大规模语言模型（LLM）推理能力中的作用。程序性知识指的是执行特定任务的步骤和方法，这对模型从预训练数据学习推理策略至关重要。文章分析了近年来关于LLM是否具备真实推理能力的争论，指出许多研究表明模型通过类比推理具备处理陌生任务的能力。然而，也有研究质疑LLM的推理能力，认为其推理过程实际上是基于模式匹配的近似检索。此外，文章提到了一些不同的案例研究，揭示程序性知识在模型推理中的重要性，并提出了是否代码预训练可以帮助LLM掌握多种任务的可能性。这为理解LLM如何进行推理及其潜力提供了新的思路。

怜星夜思：

1、程序性知识在人工智能中的潜力如何发挥？
2、LLM推理能力是否真如文章所述值得信赖？
3、你认为未来AI的发展方向是什么？

原文内容

机器之心PRO · 会员通讯 Week 48

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. Ilya 「Scaling What」的答案会是程序性知识吗？

什么是程序性知识？程序性知识会是 Scaling Law 的新机会吗？LLM 通过程序性知识学会了什么策略？预训练数据中常有哪些程序性知识？程序性知识如何影响 LLM 推理？LLM 推理能力辩论还会持续吗？...

2. 「瞄准」o1：国内大模型厂商的技术思路有何不同？过度推理成通病？

R1-Lite、K0-Math...国内纷纷推出的类 o1 推理模型，谁更强？各家做推理模型的技术思路有何异同？在训练、推理不同阶段，主要有哪些技术方案？国内开源模型分别在哪些维度，打过 o1 模型了？为何推理模型们普遍存在「过度推理」的问题？...

3. 吴恩达主题演讲：AI 作为通用目的技术正在重塑各个领域

吴恩达在演讲中都聊了什么？生成式 AI 的进步为应用层带来了哪些新机会？吴恩达提出的 Agentic Flow 有什么新进展？吴恩达认为 AI 下一步会如何发展？...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递，其中技术方面 8 项，国内方面 9 项，国外方面 11 项。

本期通讯总计 23188 字，可免费试读至 9%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① Ilya 「Scaling What」的答案会是程序性知识吗？

引言：LLM 在近几年的发展中不断取得突破，但关于模型是否具备「真的推理能力」的辩论一直没有盖棺定论。其中，相信「预测下个 token 就能实现真正的理解」，相信预训练能够让模型从数据中学习世界的抽象表征的 Ilya Sutskever 也在最近的访谈中表示「Scaling the right thing matters more now than ever。」在这一趋势下，有许多工作开始探究推理推理层的 Scaling Law。但 UCL 和 Cohere 的新作发现，影响模型推理能力的「thing」也可能是预训练中的程序性知识。

「The Right Thing to Scale? 」程序性知识是什么？

1、对于「LLM 是否具备推理能力」的辩论中，有许多工作发现经过预训练的 LLM 在零试条件下展现出具备处理各类陌生任务的能力。

① UCLA 的 Webb 等研究者在 2022 年 12 月的论文中发现，LLM 在零试条件下，具有通过类比推理解决新问题的能力，类似 GPT-3 和 GPT-4 的模型在抽象模式归纳方面表现出色，大多数情况下匹配甚至超过了人类的能力。[1]

② Webb 等人的工作在发布后受到了质疑，称 LLM 在零试条件下对基于文本的类比问题展现的推理能力可能只是测试问题与模型训练数据中的材料相似，但 Webb 在后续的工作澄清了测试材料，并进一步提供了证明 LLM 的推理能力可以泛化到「反事实」任务中。[2]

③ 对于 LLM 在算数方面的能力局限，McLeish 等人在 2024 年 5 月的论文则提出用特殊的嵌入方法（Abacus Embedding）就能改善，让模型完成简单的算数，并且这种方式有希望解锁对多步推理任务的改进。[3]

2、在否定 LLM 具备真实推理能力的声音中，最为流行的假设认为 LLM 的「推理」过程实际是某种形式的近似检索，也有很多工作发现 LLM 处理语言形式的能力存在局限，或是无法处理微小的任务变化，能力不够稳健等。

① 苹果团队在 2024 年 7 月的论文中通过 GSM-Symbolic 数据集验证了 LLM 的数学能力，分析发现 OpenAI 的 GPT-4 或开源的 Llama、Phi、等模型都没有展现出任何形式推理的证据，而是更像是复杂的模式匹配器。[4]

② 哈佛的研究者 2023 年 2 月的论文发现，LLMs 在一些理论心智任务上表现出了一定的能力，但这些能力很脆弱的，在面对任务的微小变化时就会崩溃。这表明 LLMs 可能并没有真正理解理论心智，而是在依赖于对特定任务的模式识别和记忆。[5]

③ MIT 和波士顿大学的研究者在 2024 年 6 月的论文中指出，尽管 LLMs 在某些任务上显示出了一定程度的泛化能力，但它们在面对与预训练数据中常见的任务不同的反事实任务时，性能会下降。

3、在 LLM 推理能力的争论中，大多持反对意见的工作的共同发现是，LLM 推理依赖于训练数据中类似问题的频率。然而，也有工作发现 LLM 并不会一直照搬训练数据中的数学推理步骤，回答事实问题和推理问题的「思路」也不一样。

4、Cohere 和 UCL 的在 2024 年 11 月的工作中发现了一个「折衷」的结论，即 LLM 其实能从训练数据的「程序性知识」里学到一种通用的推理方法，但不同语料确实会影响模型的推理能力。[7]

① 「程序性知识」（procedural knowledge）是一种知识类型，它涉及执行特定任务或解决问题所需的步骤和方法。这种知识通常包括一系列的操作或规则，指导个体如何进行特定的活动或推理过程。

② 程序性知识是关于「如何做」的知识。在 LLM 的语境下，程序性知识指的是模型从预训练数据中学习到的，用于执行推理任务的一系列逻辑步骤或计算过程。

③ 在 LLM 预训练数据中，数学题的步骤或运算序列就是程序性知识的一部分。当处理一个数学问题时，模型不仅需要知道最终答案，还需要知道如何通过一系列数学运算来得到这个答案。

5、该工作表明，对于事实问题，模型确实依赖于特定的文档来检索答案。然而，对于推理问题，答案通常不会出现在最具影响力的数据中。LLM 使用的推理方法看起来不同于检索，而更像是「从许多文档中综合程序性知识并进行类似的推理」的一种通用策略。[7]

① 模型在面对一个新的推理问题时，会利用它从预训练数据中学到的类似任务的解决步骤来生成答案。

② 上述行为与简单地从预训练数据中检索（retrieval）已知事实或答案不同，模型实际上是在应用一种更通用的策略，将从多种文档中提取的程序性知识综合起来，以解决新的推理问题。

6、在所有的程序性知识中，UCL 和 Cohere 的研究者发现代码预料在所有的任务中均有作用。这一发现也带来了一个新的可能性，即「是否可能存在一种预训练数据（如代码）可以让 LLM 从中学习到多种任务？」[7]

程序性知识是如何影响 LLM 进行推理的？[7]

Ember34n · 2024 年12 月 3 日 07:56

未来AI的发展很可能是不断增强其推理能力与理解能力，程序性知识的探索将是一个重要领域。

SilverWolf359 · 2024 年12 月 8 日 10:27

也许是向更广泛的多模态学习发展，结合声音、图像和文本，从而打造更全能的智能体！

MorningDew906 · 2024 年12 月 4 日 07:29

我期待AI能够回归人类的思维模式，理解情感和创造力，这样可能会更加贴近真实世界。

IronKnight238 · 2024 年12 月 7 日 00:04

程序性知识为AI提供了一个系统化的学习方法，让模型可以学习复杂的操作步聚，这在某些任务上绝对能提升其表现。

RoaringTiger218 · 2024 年12 月 5 日 14:55

我觉得程序性知识的应用比单纯的记忆模式要智能得多，若能融合更多领域，比如物理和数学，可能会产生意想不到的结果！

Wisp43b · 2024 年12 月 8 日 18:25

人工智能的未来在于不断的迭代与提升。程序性知识的引入可以让我们见证AI突破传统限制，提供更有效的解决方案。

Phantom20m · 2024 年12 月 2 日 11:45

我认为LLM的推理能力在某种情况下是可以信赖的，尤其是在处理有类似模式的任务时，效果绝对惊人。

Frost16y · 2024 年12 月 4 日 12:47

我对此持保留态度，现阶段的模型多依赖于训练数据，面对新颖情境可能会面临崩溃。跳出框架依然是一个挑战。

EmeraldDog210 · 2024 年12 月 8 日 12:09

信任模型的推理能力也要结合使用场景，若用于基本问题解答是可以的，但面对复杂推理时仍需谨慎。