文章剖析了大模型智能的底层逻辑,从Transformer架构到DeepSeek的实践,揭示了AI智能涌现的关键因素与技术路径。
原文标题:大模型的智能从哪里来?
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、DeepSeek通过强化学习提升模型推理能力,这种方法是否可以推广到其他大模型的训练中?又有哪些潜在的挑战?
3、文章提到数据驱动的智能受限于数据,那么我们应该如何解决大模型在时效性数据和局部领域数据上的不足?
原文内容
-
ChatGPT为什么是AI里程碑?
-
涌现智能从何而来?
-
DeepSeek是如何实现深度思考进行推理的?
-
AGI的下一站是哪里?
Emergent Intelligence:当系统规模达到一定程度时,系统整体表现出一些在单个组件或小规模系统中无法观察到的复杂行为或能力。在大模型(如 ChatGPT)中,涌现智能的出现主要与以下因素有关:
(1)模型规模的扩大
-
参数量的增加:随着神经网络模型参数量的增加(从数百万到数千亿),模型的表达能力显著增强,能够捕捉更复杂的语言模式和知识。
-
规模效应:当模型规模达到一定阈值时,会突然表现出一些新的能力(如上下文学习、推理能力等),这种现象被称为“涌现”。
(2)海量数据的训练
-
多样化的数据:大模型通过训练海量的多样化数据(如书籍、网页、对话记录等),覆盖了广泛的知识领域和语言现象。
-
数据驱动的学习:模型从数据中自动提取规律,逐渐学会处理复杂的任务。
(3)自监督学习与预训练
-
自监督任务:模型通过自监督学习(如预测下一个词或掩码词)从无标注数据中学习语言的内在规律。
-
预训练目标:预训练过程中,模型学会了通用的语言表示能力,为后续的涌现能力奠定了基础。
(4)上下文学习(In-Context Learning)
-
少样本学习:模型能够在少量示例的提示下完成新任务,这种能力被称为“上下文学习”。
-
模式匹配:模型通过识别输入中的模式,推断出任务的规则并生成相应的输出。
(5)多任务学习与泛化能力
-
多任务训练:模型在训练过程中接触了多种任务(如翻译、问答、摘要等),这些任务共享通用的语言表示能力。
-
泛化能力:模型能够将学到的知识迁移到新任务中,表现出强大的泛化能力。
(6)人类反馈与对齐(Alignment)
-
人类反馈强化学习(RLHF):通过人类反馈,模型学会了生成更符合人类期望的回复。
-
对齐技术:模型被训练为更安全、更有用、更符合用户需求,这种对齐过程进一步提升了其表现。
(7)复杂任务的分解与推理
-
任务分解:模型能够将复杂任务分解为多个简单步骤,逐步解决问题。
-
推理能力:尽管模型的推理能力有限,但在某些情况下,它能够通过模式匹配和概率计算模拟出类似推理的行为。
-
基于强化学习的训练
-
采用强化学习框架
DeepSeek-R1 使用了 GRPO 强化学习框架,以 DeepSeek-V3-Base 作为基础模型,通过强化学习来提升模型在推理任务中的性能。在强化学习过程中,模型通过与环境的交互,不断调整自身的策略,以最大化累积奖励。
-
探索纯强化学习路径
DeepSeek-R1-Zero 是 DeepSeek 首次尝试使用纯强化学习来提升语言模型推理能力的产物,重点关注模型通过纯 RL 流程实现的自我演化。它在初始阶段未依赖监督微调(SFT),在强化学习过程中自然地展现出许多强大而有趣的推理行为,如自我验证、反思以及生成长推理链等。
-
多阶段训练优化
加入冷启动数据微调
为解决 DeepSeek-R1-Zero 存在的可读性差和语言混杂等问题,进一步提升推理性能,DeepSeek-R1 在强化学习之前加入了少量冷启动数据和多阶段训练管道。首先收集数千条冷启动数据对 DeepSeek-V3-Base 模型进行微调。
结合监督数据再训练
在强化学习过程接近收敛时,通过在 RL 检查点上进行拒绝采样,结合DeepSeek-V3 的监督数据(包括写作、事实问答、以及自我认知等领域),生成新的 SFT 数据并重新训练模型。微调完成后,该检查点继续进行强化学习,以涵盖所有场景的 prompt,最终得到 DeepSeek-R1。
推理模式蒸馏
DeepSeek-R1 探索了将模型能力蒸馏到小型密集模型的可能性,以 Qwen2.5-32B 作为基础模型,直接从 DeepSeek-R1 进行蒸馏。将大型模型的推理模式蒸馏到小型模型中,使小型模型也能具备强大的推理能力,且性能优于直接在小模型上通过强化学习获得的推理模式。