360智脑开源Light-R1:低成本实现数学推理能力新突破

360智脑开源Light-R1,低成本实现数学推理超越DeepSeek-R1,助力开源社区发展。

原文标题:360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

原文作者:机器之心

冷月清谈:

360智脑开源了Light-R1-32B模型及其全部训练数据和代码。该模型仅需12台H800上6小时即可完成训练,从没有长思维链能力的Qwen2.5-32B-Instruct模型出发,使用7万条数学数据,在AIME24和AIME25数学测试基准中取得了76.6分和64.6分,显著超越了DeepSeek-R1-Distill-Qwen-32B。Light-R1的训练成本低廉,约1000美元,并通过两阶段课程学习SFT和DPO实现了性能的提升。该模型的开源,包括模型权重、训练数据、训练代码和评测代码,有助于推动开源社区发展,并为低成本快速训练领域专精推理模型提供了重要参考。

怜星夜思:

1、Light-R1 只用数学数据训练,却在 GPQA Diamond 任务上表现优秀,这说明了什么?除了文中提到的泛化性,还有什么可能的原因?
2、文章提到Light-R1使用了课程学习SFT+DPO的训练方法,这种方法相比强化学习有什么优势和劣势?
3、未来如何进一步提升 Light-R1 的性能?除了文章提到的强化学习续训,还有什么其他方向?

原文内容

机器之心发布
机器之心编辑部

2025 年 3 月 4 日,360 智脑开源了 Light-R1-32B 模型,以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成,从没有长思维链的 Qwen2.5-32B-Instruct 出发,仅使用 7 万条数学数据训练,得到 Light-R1-32B,在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分,在数学评测上开源首次实现从零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前,360 智脑联合北大开源了 TinyR1-32B-Preview,从 DeepSeek-R1-Distill-Qwen-32B 训练,在数学、科学和代码上取得了接近 DeepSeek-R1 满血版的优异效果。Light-R1-32B 则不依赖 DeepSeek-R1-Distill,从没有长思维链的模型出发,在数学上从零复现并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智脑希望这些工作助力开源社区发展。


注:表中为 64 次采样均分,较 16 次平均更稳定;其他开源模型截取开源汇报的结果,若没有则测试 64 次取均分。

  • 模型仓库:https://huggingface.co/qihoo360/Light-R1-32B

  • 项目地址:https://github.com/Qihoo360/Light-R1


低成本从零超越,领域专精

DeepSeek-R1 模型发布以来,尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能,但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成绩。

360 智脑开源的 Light-R1-32B 实现了突破,从没有长思维链的 Qwen2.5-32B-Instruct 开始训练,它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分,均显著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的这套从零训练的方案,按 H800 租用价格估算,训练成本仅需 1000 美元左右。仅使用了 7 万条数学数据,通过两阶段的课程学习 SFT 接着 DPO,即可超过 DeepSeek-R1-Distill-Qwen-32B,12 台 H800 机器的训练时长仅需 6 小时以内(约 4+0.5+0.5 小时)。

虽然仅使用数学数据训练了模型的长思维链能力,但在 GPQA Diamond 任务上的优秀结果,让我们相信 Light-R1 的训练方案的泛化性及有效性。相比于内部目前正在研发的强化学习路线,Light-R1 的课程学习 SFT+DPO 对整个训练流程更轻便,成本也更友好。随着训练和推理技术的不断发展,未来长思维链模型将更加普及,Light-R1 正为低成本快速训练一个领域专精推理模型提供了重要参考。

全量开源,简单易用

Light-R1 开源首日即开源全量训练和评测资产:

  • Light-R1-32B 模型:沿用 Qwen2.5-32B Apache 2.0 License;

  • 课程学习 SFT+DPO 数据集:两阶段课程学习 SFT 和 DPO 的全部数据;

  • 360-LLaMA-Factory 训练框架:在长思维链数据 Post-Training(尤其是 DPO)上解锁序列并行;

  • 完整评测代码和结果:基于 DeepScaleR 的评测工具,Light-R1-32B 的原始采样结果也在 Huggingface 模型目录下。


Fully open at Day 1,确保可信度和可复现性。360 智脑也正在探索强化学习续训,未来性能有望进一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了个别特殊 token。使用 Light-R1-32B 模型时,因其长思维链能力目前仅通过数学数据训练,故并不会对所有用户输入输出长思维链。参照 DeepSeek 的推理建议,我们在聊天模板中硬编码了 < think> token 强制其思考。建议使用较新版本的 vLLM 或 SGLang 进行推理。

课程 SFT+DPO,稳步提升

数据准备

训练用的数学题来自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME(截至 2023 年)等多个开源的数学数据集,并对 AIME、MATH、GPQA 等基准测试的数据泄露去除了污染的题目。

数学题的答案抓取了 DeepSeek-R1 的结果并经过验证过滤。同时使用 DeepScaleR-1.5B-Preview 进行采样根据回答正确率估算题目的难度分级。


课程学习 SFT+DPO

基于 Qwen2.5-32B-Instruct,依次进行 Post-Training:

  • SFT 阶段 1:根据验证结果和难度分级初筛,得到 7 万条数据进行 SFT;

  • SFT 阶段 2:在 SFT 阶段 1 之后,筛选出难度最大的 3 千条数据,进行 SFT;

  • DPO 阶段:在 SFT 阶段 2 之后,在 3 千条数据上多次采样 Light-R1-SFT 阶段 2 的回答,根据验证结果和 DeepSeek-R1 的回答构建 DPO pair 对,进行 DPO,使用 DPO 原始 loss 或 NCA loss。


模型融合

最终,智脑团队将 SFT 阶段 2、DPO 和另一个 DPO 版本的模型(AIME24 74.7 分)融合,使用 Arcee 团队的 mergekit 工具,得到 Light-R1-32B。这两个 DPO 版本在训练数据和超参上略有不同。

整个训练流程中,每一步的提升都在前文的表格中体现。在完全没训练的科学类题目评测 GPQA 上,数学专项训练导致了部分遗忘,但 Light-R1-32B 也体现了较强的泛化性。

数据去重,助力开源生态

基准测试分数既有其重要性,也有局限性。虽然预训练阶段的个别基准测试污染难以完全避免,但在后训练阶段,应当严格杜绝数据污染,在训练集中对测试数据严格去重。360 智脑在研发过程中发现,虽然开源数据集对 AIME 都没有污染,但是在 MATH-500 和 GPQA 上都存在一定污染,通过 N-gram 或纯字母匹配检测,可以发现原题或仅更改数字的计算题。针对这种情况,Light-R1-32B 在训练过程中做了严格去重。


在开源社区中,Light-R1-32B 是首个从零训练超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于开源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多个开源数据,使用开源框架 360-LLaMA-Factory 训练,使用开源项目 DeepScaleR 和 verl 评测。360 希望通过 Light-R1-32B 和上周开源的 TinyR1 等工作助力开源生态发展,加速中国 AI。

注:本文 “从零” 表示从没有长思维链的模型开始训练


团队成员:Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

参考资料:
https://github.com/Qihoo360/Light-R1
https://huggingface.co/qihoo360/Light-R1-32B
https://huggingface.co/collections/qihoo360/light-r1-67c675125e2443d7d5ed133d

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


SFT+DPO 和强化学习的比较,就像手动挡和自动挡汽车一样。SFT+DPO 像是手动挡,需要更多人工干预,成本低,但训练过程可控性更强。强化学习像自动挡,虽然省事,但成本高,而且训练过程像开盲盒,结果难以预测。

这个问题很有意思啊!我觉得除了泛化性强,Light-R1 的训练数据虽然是数学的,但可能无意中包含了 GPQA Diamond 任务所需的一些知识或模式。也可能是模型在学习数学的过程中,掌握了一些通用的推理技巧,恰好能用于 GPQA Diamond 任务。就像我们学习数学,其实也锻炼了逻辑思维能力,能帮助我们解决其他问题一样。

Light-R1只用数学数据训练,却在GPQA Diamond任务上表现优秀,除了泛化性,我觉得可能的原因是数学本身就是一种高度抽象和逻辑化的语言,训练模型理解和运用数学语言,可能间接提升了模型的逻辑推理能力、符号理解能力以及解决问题的能力,这才使得它在其他类型的推理任务,比如GPQA Diamond上也有不错的表现。就好比一个精通数学的人,往往在其他逻辑相关的领域也更容易上手。

对于Light-R1性能的进一步提升,除了强化学习续训,我认为可以探索以下几个方向:1. 寻找或构建更优质的训练数据集,特别是针对模型目前表现较弱的领域;2. 探索更高效的模型架构和训练方法,例如更高效的注意力机制、更优的优化器等;3. 尝试多模态训练,将文本数据与其他类型的数据(例如图像、音频)结合起来训练,使模型具备更强的理解和推理能力。

“未来如何进一步提升 Light-R1 的性能?除了文章提到的强化学习续训,还有什么其他方向?” 我觉得可以从以下几个方面入手:优化模型结构,比如改进注意力机制,使其更有效地处理长序列信息;改进训练方法,比如使用更先进的优化器或学习率策略;增加训练数据的多样性,比如引入不同领域的文本数据,以提高模型的泛化能力;探索更有效的模型融合方法,比如使用知识蒸馏或集成学习等技术。

提升 Light-R1 性能,除了强化学习,还可以考虑:改进数据预处理方法,例如更精细的数据清洗和增强;探索新的模型架构,例如结合 Transformer 和其他网络结构;引入外部知识库,例如将知识图谱融入模型;优化推理过程,例如使用更高效的解码策略。

针对这个问题,我觉得Light-R1在GPQA Diamond任务上的优秀表现,除了泛化性之外,可能也暗示了数学推理能力和通用问题解决能力之间存在某种底层联系。数学训练可能提升了模型的逻辑推理和模式识别能力,这些能力恰好也能应用于其他类型的推理任务。

“Light-R1使用了课程学习SFT+DPO的训练方法,这种方法相比强化学习有什么优势和劣势?” 我认为SFT+DPO的优势在于训练速度快,成本低,而且比较稳定,不容易翻车;强化学习的优势在于效果好,上限高,但训练难度大,成本也高,而且容易出现不稳定和难以控制的情况,就像养一个熊孩子一样,费心费力还未必听话。

关于Light-R1使用的课程学习SFT+DPO方法与强化学习的比较,我觉得优势在于SFT+DPO训练流程更轻便,成本更友好,更容易实现和控制。劣势可能在于SFT+DPO的效果上限不如强化学习,强化学习通过与环境交互和奖励机制,可以让模型学习到更复杂和高级的策略,但训练难度和成本也更高。