DeepSeek R1 技术揭秘:四种构建和优化推理模型的方法,包括推理时缩放、强化学习、监督微调和蒸馏。
原文标题:DeepSeek R1 技术揭秘:推理模型的训练与优化全流程
原文作者:图灵编辑部
冷月清谈:
构建推理模型的四种主要方法包括:
1. **推理时缩放:** 通过增加推理时的计算资源,例如使用思维链提示或投票搜索算法,来提高模型输出质量。DeepSeek R1 未显式使用此技术,但可能在其应用层中隐式应用。
2. **纯强化学习:** DeepSeek R1-Zero 模型的训练方法,仅使用强化学习,无需监督微调,就展现出基本的推理能力。这种方法的关键在于奖励机制的设计,包括准确性奖励和格式奖励。
3. **监督微调与强化学习:** DeepSeek R1 模型的训练方法,在纯强化学习的基础上增加了监督微调阶段,并使用更丰富的奖励机制,进一步提升了模型的推理性能。
4. **纯监督微调与蒸馏:** 通过使用大型推理模型生成的 SFT 数据对较小模型进行微调,降低了模型的规模和运行成本,同时保持了较强的推理能力。
文章还比较了 DeepSeek R1 与 OpenAI o1 的性能,并讨论了在有限预算下开发推理模型的策略,包括模型蒸馏和纯强化学习方法。最后,文章介绍了旅程学习的概念,这是一种改进蒸馏过程的新方法,通过引入错误的解题路径来增强模型的自我修正能力。
怜星夜思:
2、文章提到了四种构建推理模型的方法,大家觉得哪种方法最有前景?或者未来会出现哪些新的方法?
3、文章比较了 DeepSeek R1 和 OpenAI o1,大家觉得未来开放权重模型和闭源模型在推理能力方面的发展趋势会如何?
原文内容
本文将介绍当前构建推理模型的四种主要方法,并探讨如何提升大语言模型(LLM)的推理能力。希望通过这些内容,能为你提供一些有用的见解,帮助你更好地理解这个热门话题,并在快速发展的技术中找到自己的方向。
2024 年,大模型(LLM)领域的专业化程度不断提高。除了传统的预训练(Pre-training)和微调(Fine-tuning)之外,我们还见证了诸如 RAG(检索增强生成)和代码助手等专业应用的兴起。我预计在 2025 年,这一趋势将进一步加速,行业会更加聚焦于针对特定领域和应用场景的优化,也就是 “模型专业化”。
第 1-3 阶段是开发 LLM 的常见步骤,第 4 阶段针对特定用例专门开发 LLM。推理模型的开发正是这一趋势的一部分。这意味着,我们需要进一步优化 LLM,使其能够在需要多步推理的复杂任务(如解谜、数学推导和复杂编程问题)上表现得更好。然而,这种优化并不会取代 LLM 的其他应用场景,因为将 LLM 转变为推理模型也会带来一定的缺陷,我会在后面详细讨论。
为了让你对接下来的内容有个大致了解,本文将包含以下几个方面:
-
解释“推理模型”的含义
-
分析推理模型的优缺点
-
解析 DeepSeek R1 的训练流程
-
总结构建和优化推理模型的四大核心方法
-
讨论 DeepSeek V3 和 R1 之后的 LLM 发展趋势
-
分享如何在有限预算下开发推理模型的建议
希望这篇文章能在 2025 年 AI 快速发展的浪潮中,为你提供实用的帮助!
如何定义“推理模型”?
如果你从事 AI 或机器学习领域的工作,你应该对一些模糊且存在争议的术语不陌生。“推理模型”也是如此。通常,某篇论文会给出一个定义,但很快下一篇论文就会重新定义这个概念,如此往复。
在本文中,我将“推理”定义为:解答那些需要多步推理和中间步骤的复杂问题的过程。
例如,回答“法国的首都是哪里?”这种问题不涉及推理,它只是一个事实性问题。但如果问题是“如果一列火车以 60 英里/小时的速度行驶 3 小时,它能行驶多远?”这就需要一些简单的推理。模型需要先识别“距离 = 速度 × 时间”的关系,才能得出正确答案。
普通 LLM vs. 推理模型
普通 LLM 可能只会给出简短的答案,例如:“180 英里”(见图左侧),而推理模型通常会展示中间步骤,让用户看到推理过程(见图右侧)。值得注意的是,即使是没有经过专门优化的 LLM,有时也可以在回答时提供中间推理步骤。
大多数现代 LLM 具备一定的推理能力,可以回答类似“火车行驶 3 小时能走多远?”这类问题。因此,当我们谈论“推理模型”时,通常指的是那些能处理更复杂推理任务(如解谜、数学推导和证明)的 LLM。
此外,如今被称为推理模型的 LLM,往往会在回答中显式呈现“思考过程”。当然,LLM 是否真正“思考”是另一个值得探讨的话题。
推理模型的两种推理方式
推理模型的中间推理步骤主要以两种方式呈现:
-
直接体现在回答中,让用户看到完整的推理过程(如上图)。
-
在内部进行多次迭代,但不会向用户展示推理过程。例如,OpenAI 的 o1 可能会进行多轮推理,但最终只呈现答案。
什么时候应该使用推理模型?
在探讨如何构建和优化推理模型之前,我们需要先思考一个问题:推理模型到底适用于哪些任务?
推理模型适用于哪些任务?
推理模型适用于需要多步推理的复杂任务,例如:解谜题、高级数学推导、复杂编程问题。但对于总结、翻译或基于知识的问答等简单任务,推理模型的必要性就不那么强了。事实上,如果无差别地在所有任务中都使用推理模型,可能会带来不必要的开销,因为推理模型通常更昂贵、更冗长,有时可能因“过度思考”而出错。选择合适的 LLM 处理合适的任务,是一个通用的好策略。
下图总结了推理模型的核心优势和局限性:
DeepSeek R1 的训练流程
在下一部分讨论构建和优化推理模型的四种主要方法之前,我想先简要介绍 DeepSeek R1 训练流程,该流程在 “DeepSeek R1 技术报告” 中有详细描述。这份报告不仅是一个有趣的案例研究,同时也可以作为开发推理模型的蓝图。
需要注意的是,DeepSeek 并未发布单一的 R1 推理模型,而是推出了三个不同的变体:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。
根据技术报告中的描述,我整理了这些模型的开发流程,并绘制了下方的示意图。
DeepSeek R1 技术报告中提到的三种不同推理模型的开发过程接下来,我们简要回顾一下这一流程。更详细的信息将在下一部分讨论构建和优化推理模型的四种主要方法时展开。
-
DeepSeek-R1-Zero:该模型基于2024 年 12 月发布的 DeepSeek-V3 预训练基础模型(671B 参数规模)。研究团队采用强化学习(RL)进行训练,并使用了两种奖励机制。这种方法被称为“冷启动”训练,因为它没有进行监督微调(SFT),而 SFT 通常是人类反馈强化学习(RLHF)的一部分。
-
DeepSeek-R1:这是 DeepSeek 的主力推理模型,基于 DeepSeek-R1-Zero 进一步优化。团队在此基础上增加了额外的 SFT 训练阶段,并继续使用 RL 训练,进一步提升了 R1-Zero 这一“冷启动”模型的能力。
-
DeepSeek-R1-Distill*:在前面的训练过程中产生了大量 SFT 数据,DeepSeek 团队利用这些数据对 Qwen 和 Llama 进行微调,以增强其推理能力。虽然严格意义上不属于知识蒸馏,但该过程涉及使用 DeepSeek-R1(671B)生成的输出,来训练较小规模的模型(包括 Llama 8B/70B 和 Qwen 1.5B–30B)。
构建和优化推理模型的四种主要方法
本节将介绍目前用于提升 大语言模型(LLM)推理能力 的关键技术,这些技术不仅能增强通用 LLM 的推理能力,也被用于构建专门的推理模型,例如 DeepSeek-R1、OpenAI 的 o1 和 o3 等。
注:o1 和 o3 的具体工作原理目前尚未公开,不过外界普遍猜测它们结合了 推理 和 训练 方面的优化策略。
1) 推理时缩放(Inference-time Scaling)
提升 LLM 推理能力的其中一种方法是 推理时缩放(Inference-time Scaling)。这个术语在不同背景下可能有不同的含义,但在这里,它指的是 增加推理时的计算资源 以提高模型输出的质量。
可以将其类比为人类思考复杂问题的方式:当我们有更多时间思考时,往往能得出更好的答案。同样,我们可以应用一些策略,使 LLM 在生成答案时进行更多的“思考”。(当然,LLM 是否真正“思考”是一个更深层次的话题。)
推理时缩放的一种直接方法:提示工程(Prompt Engineering) 。其中最典型的例子就是 思维链(Chain-of-Thought,CoT)提示。
在 CoT 提示中,我们会在输入提示词(prompt)中加入类似 “一步步思考” 的短语,鼓励模型先生成 中间推理步骤,而不是直接跳到最终答案。这种方法在处理复杂问题时 通常(但不总是) 能提升准确率。
需要注意的是,并不是所有问题都适合使用这种策略。例如,对于 “法国的首都是哪里?” 这种 单纯的知识性问题,使用 CoT 提示并无意义。这也是一个实用的判断标准:如果一个问题本身不涉及推理,那么针对它优化推理模型就没有必要。
2022 年论文 “Large Language Models are Zero-Shot Reasoners”(https://arxiv.org/abs/2205.11916)中的一个经典思维链(CoT)提示示例。上述的 CoT 方法可以被看作是一种推理时缩放,因为它通过生成更多的输出 token 来增加推理的计算成本。
另一种推理时缩放策略是使用投票和搜索算法。例如,一个简单的例子是多数投票法,即让 LLM 生成多个答案,通过多数票的方式选出最有可能的正确答案。同样,我们还可以使用束搜索(beam search)或其他搜索算法来生成更优质的响应。
如果想深入了解这些策略,强烈推荐阅读论文“Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”,这篇论文的详细分析可以在我的文章 「2024 年值得关注的 AI 研究论文(Part 2)」中找到。
不同的基于搜索的方法通常依赖于过程-奖励模型(process-reward-based model)来选择最佳答案。来自论文“LLM Test-Time Compute”,https://arxiv.org/abs/2408.03314根据 DeepSeek R1 技术报告,其模型未使用推理时缩放技术。然而,这种技术通常是在 LLM 的应用层中实现的,因此 DeepSeek 有可能在其应用中隐式地使用了这种技术。
我猜测 OpenAI 的 o1 和 o3 模型使用了推理时缩放技术,这也解释了它们为什么相对比 GPT-4o 模型更昂贵。除了推理时缩放之外,o1 和 o3 可能还使用了类似于 DeepSeek R1 所采用的强化学习(RL)管道进行训练。关于强化学习的更多细节将在下面的两个部分中进行介绍。
2) 纯强化学习(RL)
我个人非常欣赏 DeepSeek R1 论文中的一个亮点:他们发现推理能力作为一种行为可以通过纯强化学习(RL)自发涌现。
正如之前提到的,DeepSeek 开发了三种类型的 R1 模型。其中,第一个模型 DeepSeek-R1-Zero 是基于 DeepSeek-V3 基础模型构建的。DeepSeek-V3 是他们在 2024 年 12 月发布的标准预训练 LLM。与典型的 RL 管道不同(通常在 RL 之前会先进行监督微调 SFT),DeepSeek-R1-Zero 完全通过强化学习进行训练,没有经历初始的 SFT 阶段,如下图所示:
DeepSeek-R1-Zero 模型的开发过程尽管这种强化学习(RL)流程与常见的 RLHF 方法(强化学习+人类反馈)类似,通常用于微调 LLM 以符合人类偏好。但如上所述,DeepSeek-R1-Zero 的关键区别在于,他们跳过了监督微调(SFT)阶段的指令调优,这也是为什么他们称之为“纯”RL。(不过需要注意的是,LLM 中的 RL 与传统意义上的 RL 有很大不同,这是另一个值得单独探讨的话题。)
在奖励机制方面,与通过人类偏好训练的奖励模型不同,他们采用了两种奖励方式:准确性奖励和格式奖励。
-
准确性奖励:通过使用 LeetCode 编译器来验证代码答案的正确性,并通过一个确定性的系统来评估数学答案的准确性。
-
格式奖励:依赖于一个由 LLM 充当的审查者,确保模型输出的回答符合预期格式,例如将推理步骤置于
<think>
标签内。
令人意外的是,仅凭这种方法,模型就已经具备了基本的推理能力。研究人员注意到模型出现了“啊哈”时刻,即便没有明确地进行推理训练,模型也开始在回答中生成推理步骤,如下图所示。
DeepSeek R1 技术报告中的图生动地展示了“啊哈”时刻的出现虽然 R1-Zero 并不是性能最顶尖的推理模型,但它通过生成中间的“思考”步骤(如上图所示),展现了其推理能力。这证明了通过纯强化学习(RL)开发出具备推理能力的模型是可行的,而 DeepSeek 团队是第一个展示(或至少公开)这一方法的团队。
3)监督微调与强化学习(SFT + RL)
接下来,我们来看 DeepSeek 的主力推理模型——DeepSeek-R1 的开发过程。这个模型是构建推理模型的蓝图,相较于 R1-Zero,它通过额外的监督微调(SFT)和强化学习(RL)进一步提升了推理性能。
值得注意的是,在 RL 之前加入 SFT 阶段实际上是很常见的做法,比如标准的 RLHF(强化学习+人类反馈)流程中就包含这一阶段。像 OpenAI 的 o1 模型很可能也是采用了类似的开发方法。
DeepSeek-R1 模型的开发过程如上图所示,DeepSeek 团队使用 DeepSeek-R1-Zero 生成了所谓的“冷启动”SFT 数据。“冷启动”是指这些数据是由 DeepSeek-R1-Zero 模型生成的,而 R1-Zero 模型本身并未接受任何监督微调(SFT)数据的训练。
在获得这些“冷启动” SFT 数据后,DeepSeek 团队对模型进行了指令微调(Instruction Fine-tuning),随后又进行了一个强化学习(RL)阶段。这个 RL 阶段沿用了 R1-Zero 中的奖励机制,包括准确性奖励(验证数学和代码问题的正确性)和格式奖励(确保输出符合预期格式)。除此之外,他们还新增了一个一致性奖励,以避免模型在回答中混用多种语言的问题。
强化学习阶段之后,他们进行了新一轮的 SFT 数据收集。这一阶段中,使用最新的模型检查点(checkpoint)生成了 60 万条 Chain-of-Thought(CoT)SFT 样本,同时还基于 DeepSeek-V3 基础模型生成了 20 万条基于知识的 SFT 样本。
随后,这些 60 万 + 20 万条 SFT 数据 被用于另一轮强化学习训练。在这轮训练中,他们继续使用基于规则的方法对数学和编程问题的答案给予准确性奖励,而对其他类型的问题则引入了基于人工偏好标签的奖励机制。
最终生成的模型——DeepSeek-R1,通过额外的 SFT 和 RL 阶段,在性能上相较于 DeepSeek-R1-Zero 有了显著提升,具体表现可以参考下表的数据对比。
OpenAI A1 和 DeepSeek R1 模型的基准测试对比,来自 DeepSeek-R1 技术报告 https://arxiv.org/abs/2501.129484) 纯监督微调(SFT)与蒸馏
到目前为止,我们已经讨论了构建和提升推理模型的三种关键方法:
-
推理时缩放(Inference-time scaling):一种在不修改或重新训练基础模型的情况下,提升推理能力的技术。
-
纯强化学习(RL):像 DeepSeek-R1-Zero 这样的模型证明了推理能力可以通过纯强化学习来培养,而无需监督微调。
-
监督微调(SFT)加强化学习(RL):这是 DeepSeek-R1 推理模型的开发方法。
那么,接下来是什么呢?答案是蒸馏。
令人惊讶的是,DeepSeek 还发布了通过他们所称的“蒸馏”过程训练的较小模型。不过,在 LLM 的上下文中,蒸馏并不完全遵循传统深度学习中的知识蒸馏方法。在传统的知识蒸馏中(在我的《大模型技术30讲》一书(图灵即将出版)的第 6 章中简要描述过),较小的学生模型会在一个更大教师模型的logits和目标数据集上进行训练。
在 DeepSeek 的情况下,蒸馏指的是对较小的 LLM(例如 Llama 8B 和 70B,Qwen 2.5 模型等,范围从 0.5B 到 32B)进行监督微调,这些微调数据集是由较大的 LLM(如 DeepSeek-V3 和 DeepSeek-R1 的中间检查点)生成的。事实上,蒸馏过程中使用的 SFT 数据集与用于训练 DeepSeek-R1 的数据集是相同的,正如前文所述。
为了更清楚地说明这个过程,我在下图中突出了蒸馏的部分。
DeepSeek-R1-Distill 模型的开发过程为什么他们要开发这些蒸馏模型呢?我认为有两个主要原因:
-
较小的模型更高效:这意味着它们运行成本更低,同时也可以在低端硬件上运行,这对许多研究人员和像我这样的爱好者来说尤为重要。
-
纯 SFT 的案例研究:这些蒸馏模型作为一个有趣的基准,展示了纯监督微调(SFT)可以将模型推得多远,而不需要强化学习。
下面的表格对比了这些蒸馏模型与其他流行模型、DeepSeek-R1-Zero 和 DeepSeek-R1 的性能表现。
蒸馏模型与非蒸馏模型的基准比较,https://arxiv.org/abs/2501.12948从下图可以看出,蒸馏模型的表现明显不如 DeepSeek-R1,但与 DeepSeek-R1-Zero 相比,尽管它们的规模小得多,表现仍然相当强劲。值得注意的是,这些模型在与 o1 mini 的比较中表现得相当不错(我怀疑 o1-mini 可能也是 o1 的蒸馏版本)。
在总结这一部分之前,还有一个有趣的比较值得提一提。DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的推理行为是否也能在较小的模型中出现。为了验证这一点,他们将 DeepSeek-R1-Zero 中使用的纯 RL 方法直接应用于 Qwen-32B。
实验结果总结在下表中,其中 QwQ-32B-Preview 是基于 Qwen 2.5 32B 开发的推理模型(我认为其训练细节并未公开)。这个比较提供了一些额外的见解,帮助我们了解单纯的纯 RL 方法是否能在远小于 DeepSeek-R1-Zero 的模型中引发推理能力。
蒸馏与强化学习(RL)在一个较小的 32B 模型上的比较,数据来自 DeepSeek-R1 技术报告 (https://arxiv.org/abs/2501.12948)有趣的是,结果表明蒸馏相比纯强化学习(RL)对较小模型更为有效。这与以下观点一致:单纯的 RL 可能不足以在这种规模的模型中引发强大的推理能力,而在高质量推理数据上进行监督微调(SFT)可能是一种在处理小型模型时更有效的策略。
为了完整性,表格中如果能有更多的比较会更有帮助:
-
Qwen-32B 使用 SFT + RL 进行训练,类似于 DeepSeek-R1 的开发方式。这样可以帮助我们了解,当 RL 与 SFT 结合时,与纯 RL 和纯 SFT 相比能带来多少提升。
-
DeepSeek-V3 仅使用纯 SFT 进行训练,类似于蒸馏模型的训练方式。这样能让我们直接比较 RL + SFT 和纯 SFT 的效果。
结论
在这一部分,我们探讨了四种不同的推理模型构建与优化策略:
-
推理时缩放:无需额外训练,但会增加推理成本,随着用户数量或查询量的增加,大规模部署成本会变得更加昂贵。尽管如此,它仍然是提高已有强大模型性能的一个非常直观的方法。我强烈怀疑 o1 采用了推理时缩放,这也能解释为什么它在每个 token 的计算成本上比 DeepSeek-R1 更高。
-
纯强化学习(RL):从研究角度来看,纯RL非常有趣,因为它能为我们提供关于推理作为一种自发行为的深刻见解。然而,在实际模型开发中,RL + SFT 是首选方法,因为它能构建更强大的推理模型。我强烈怀疑 o1 也采用了 RL + SFT 方法。更确切地说,我认为 o1 是从一个比 DeepSeek-R1 更弱、更小的基础模型开始的,但通过 RL + SFT 和推理时扩展弥补了这一点。
-
RL + SFT:正如前文所述,RL + SFT 是构建高性能推理模型的关键方法。DeepSeek-R1 是一个很好的蓝图,展示了如何实现这一方法。
-
蒸馏:蒸馏是一种非常棒的方法,特别适用于创建较小、更高效的模型。然而,它的局限性在于,蒸馏并不能推动创新或生产下一代推理模型。例如,蒸馏总是依赖现有的、更强大的模型来生成监督微调(SFT)数据。
我期待接下来看到一个有趣的结合——将 RL + SFT(方法 3)与推理时缩放(方法 1)结合起来。这可能正是 OpenAI o1 所在做的,尽管它可能基于一个比 DeepSeek-R1 更弱的基础模型,这也能解释为什么 DeepSeek-R1 在推理时表现得如此出色,同时保持相对便宜的成本。
关于 DeepSeek R1 的想法
最近,很多人向我询问关于 DeepSeek-R1 模型的看法。简而言之,我认为这是一次了不起的成就。作为一名研究工程师,我特别欣赏他们发布的详细技术报告,这些报告中提供的研究方法和思路让我受益匪浅。
最令人着迷的一点是,推理作为一种行为是如何从纯强化学习(RL)中自然出现的。而且,DeepSeek 将他们的模型开源,并采用了 MIT 开源许可协议,这比 Meta 的 Llama 模型的限制还要少,这一点非常令人印象深刻。
与 o1 的比较
那么,DeepSeek-R1 比 o1 更强吗?我认为它们大致处于同一水平。不过,DeepSeek-R1 在推理时的效率更高,这表明 DeepSeek 可能在训练过程中投入了更多的精力,而 OpenAI 则可能更多依赖推理时扩展技术来优化 o1。
但需要注意的是,直接比较 o1 和 DeepSeek-R1 是非常困难的,因为 OpenAI 并没有公开 o1 的很多细节。例如,我们并不清楚:
-
o1 是否采用了混合专家模型(MoE)?
-
o1 的模型规模有多大?
-
o1 是否只是一个稍微改进的 GPT-4o 版本,经过 minimal RL + SFT 调整,并只依赖大规模推理时扩展?
由于缺乏这些具体信息,直接比较就像拿苹果与橙子做对比一样。
DeepSeek-R1 的训练成本
另一个讨论点是 DeepSeek-R1 的开发成本。有些人提到训练成本大约为 600 万美元,但这可能是将 DeepSeek-V3(去年 12 月发布的基础模型)和 DeepSeek-R1 混淆了。
600 万美元的估算是基于每 GPU 小时 2 美元,并计算了 DeepSeek-V3 最后一次训练所需的 GPU 小时数,该数据最早在 2024 年 12 月讨论过。
然而,DeepSeek 团队从未公开过 R1 的具体 GPU 小时数或开发成本,所以任何成本估算都只能是纯粹的猜测。
无论如何,DeepSeek-R1 毫无疑问是开放权重推理模型的一个重要里程碑,而且它在推理时的高效性使其成为 OpenAI o1 的替代方案。
有限预算下开发推理模型
开发像 DeepSeek-R1 这样的推理模型可能需要数十万到百万美元,即使是从开源基础模型 DeepSeek-V3 开始。这对预算有限的研究人员或工程师来说,可能会感觉有些沮丧。
幸运的是,模型蒸馏提供了一个更加经济的替代方案。DeepSeek 团队通过 R1 蒸馏模型展示了这一点,尽管这些蒸馏模型比 DeepSeek-R1 小得多,但它们的推理表现依然令人惊讶地强劲。然而,即便是这种方法也并非完全便宜。蒸馏过程使用了 80 万个 SFT 样本,这需要相当可观的计算资源。
有趣的是,在 DeepSeek-R1 发布的几天前,我看到了一篇关于 Sky-T1 项目的文章,这是一个小团队仅用 1.7 万个 SFT 样本就训练出了一个开源的 32B 模型。总成本?仅需 450 美元,甚至还比大多数 AI 会议的注册费都要便宜。
这个例子表明,虽然大规模训练仍然很昂贵,但小规模、精准的微调仍然能在低成本下取得令人印象深刻的成果。
来自“Sky-T1: 在 450 美元内训练你自己的 o1 预览模型”,https://novasky-ai.github.io/posts/sky-t1/根据他们的基准测试,Sky-T1 的表现大致与 o1 相当,这在考虑到其低训练成本的情况下,确实令人印象深刻。
有限预算下的纯 RL:TinyZero
虽然 Sky-T1 主要聚焦于模型蒸馏,但我也发现了一些在“纯 RL”领域中的有趣工作。一个值得注意的例子是 TinyZero,这是一款 3B 参数的模型,复制了 DeepSeek-R1-Zero 的方法(顺便说一下,它的训练成本不到 30 美元)。
令人惊讶的是,尽管 TinyZero 只有 3B 参数,但它展示出了一些自我验证的能力,这支持了推理可以通过纯强化学习出现的观点,即使在小型模型中也能实现。
TinyZero 的代码库提到,研究报告仍在进行中,我一定会继续密切关注更多的细节。
来自 TinyZero 仓库(https://github.com/Jiayi-Pan/TinyZero)的一张图,展示了该模型具备自我验证的能力。(如果能将基础模型的响应与之进行对比会更好)以上提到的两个项目展示了即使在有限预算下,仍然可以进行有趣的推理模型研究。这两种方法分别是基于纯 RL(TinyZero)和纯 SFT(Sky-T1),虽然它们都模仿了 DeepSeek-R1 的方法,但将这些思路进一步拓展将会非常有趣。
超越传统的 SFT:旅程学习
去年我接触到的一种特别有趣的方法,描述在论文“O1 Replication Journey: A Strategic Progress Report – Part 1”中。尽管标题中提到了复制 o1,但其实这篇论文并没有复制 o1,而是介绍了一种改进蒸馏(纯 SFT)过程的不同方式。
论文中的关键思想是“旅程学习”,作为“捷径学习”的替代方法。
-
捷径学习指的是传统的指令微调方法,模型只训练正确的解题路径。
-
而旅程学习则不同,它还包括错误的解题路径,从而让模型通过错误学习。
这种方法与 TinyZero 在纯 RL 训练中展现的自我验证能力有些相似,但它专注于通过 SFT 来改进模型。通过让模型接触到错误的推理路径及其修正,旅程学习可能会增强模型的自我修正能力,从而使推理模型变得更加可靠。
旅程学习与传统的捷径学习不同,它在 SFT 数据中加入了错误的解题路径。来自论文“O1 Replication Journey: A Strategic Progress Report – Part 1”中的图示,https://arxiv.org/abs/2410.18982。这可能是未来工作的一个令人兴奋的方向,特别是在低预算的推理模型开发中,基于强化学习的方法可能在计算上不可行。
总的来说,目前在推理模型领域有很多有趣的工作,我相信在接下来的几个月里,我们将看到更多令人兴奋的进展!
我的新书中文版《从零构建大模型》预计 2月底上市。我相信这本书会对你大有帮助,它详细解释了大语言模型的原理,是其他地方难以找到的内容。