Open-R1:DeepSeek-R1 的完全开源复现

Open-R1 是对 DeepSeek-R1 的完全开源复现,首次公开其强化学习(R1-Zero)与监督微调+RL(R1)双路径训练方法,涵盖数据构建、代码实现与超参细节。项目聚焦数学、编程与逻辑推理,旨在推动低成本、可复现的开源推理模型发展。

发布于2025年2月7日 06:07
编辑零重力瓦力
评论0
阅读51

Open-R1:DeepSeek-R1 的完全开源复现

作者:Elie Bakouch、Leandro von Werra、Lewis Tunstall
原文链接:https://huggingface.co/blog/open-r1

什么是 DeepSeek-R1?

如果你曾经被数学难题困住,你一定知道 “多思考一会儿” 有多么重要。事实证明,大语言模型(LLM)在推理时如果使用更多计算资源,也能在完成数学、编程和逻辑等任务上表现得更好。

OpenAI 的 o1 模型展示了这一点:通过在推理过程中使用更多计算,它在推理任务上的表现显著提升。然而,OpenAI 的推理模型训练方法一直是个商业机密,直到上周,DeepSeek 发布了 DeepSeek-R1,并迅速在科技界引发轰动(甚至影响了股市)。

除了性能媲美甚至优于 o1 之外,DeepSeek-R1 的发布还附带了一份详细的技术报告,列出了其训练方法的关键步骤。其中最引人注目的创新之一是完全基于强化学习(RL),使基础语言模型能够自主学习推理能力,而无需任何人工监督。

Open-R1:DeepSeek-R1 的完全开源复现

然而,DeepSeek-R1 的发布仍然留下了几个悬而未决的问题:

  • 数据收集: 如何筛选出专门用于推理的高质量数据集?
  • 模型训练: DeepSeek 没有公开训练代码,因此最佳的超参数设置仍然未知,不同规模的模型是否有不同的训练方法?
  • 扩展规律: 在训练推理模型时,计算成本和数据量之间的权衡是什么?

这些问题促使我们启动 Open-R1 项目,旨在系统性地重建 DeepSeek-R1 的数据和训练流程,验证其研究成果,并推动开源推理模型的发展。

他们是如何做到的?

DeepSeek-R1 是基于 DeepSeek-V3 训练的推理模型。一个优秀的推理模型需要一个强大的基础模型,而 DeepSeek-V3 正是如此。

这个拥有 6710 亿参数的专家混合(MoE)模型,其性能可与 Claude Sonnet 3.5 和 GPT-4o 媲美,且得益于架构优化(如 多 token 预测(MTP) 和 多头潜在注意力(MLA)),训练成本仅为 550 万美元,极具成本效益。

DeepSeek-R1-Zero:完全基于强化学习的推理模型

DeepSeek-R1-Zero 没有使用任何人工标注数据,而是完全依赖强化学习(RL)训练。

  • 训练方法: 使用群体相对策略优化(GRPO)提高强化学习效率。
  • 训练目标: 通过简单的奖励机制让模型学会分步解题和自我验证答案。

问题: 虽然 R1-Zero 具备强大的推理能力,但其答案往往缺乏清晰度,不够易读。

DeepSeek-R1:强化学习 + 监督微调

Open-R1:DeepSeek-R1 的完全开源复现

为了解决这个问题,DeepSeek-R1 采用了"冷启动"(Cold Start)策略,先用高质量的人工标注数据进行微调,提升答案的可读性和一致性。

Open-R1:填补缺失的部分

DeepSeek-R1 的发布极大地推动了推理模型的发展,但它并没有完全开源,虽然模型权重是公开的,但训练数据和代码并未开放。

我们的计划如下:

  1. 复现 R1-Distill 模型:从 DeepSeek-R1 提取高质量推理数据集。
  2. 复现 R1-Zero 的强化学习训练流程:构建全新的大规模数学、推理和编程数据集。
  3. 从基础模型 → 监督微调(SFT)→ 强化学习(RL),完成整个多阶段训练过程。

Open-R1:DeepSeek-R1 的完全开源复现

如何参与 Open-R1 项目?

这个项目不仅仅是对 DeepSeek-R1 的复现,更是一个开放的研究探索。

我们希望通过记录哪些方法有效,哪些无效,以及为什么,帮助大家避免不必要的计算浪费,提高研究效率。

想要参与?你可以:

  • 贡献代码
  • 在 Hugging Face 参与讨论
  • 提供计算资源
  • 帮助整理数据集
  • 无论你的专业背景如何,我们都欢迎你的加入!让我们一起构建一个完全开源的推理模型

项目地址:huggingface.co/open-r1

相关文章

JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点
AI 编程开发
2026年6月19日
0 条评论
零重力瓦力

JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点

JetBrains AI 编程 Agent Junie 正式 GA,在 SWE-Rebench 基准测试中排名第一。其核心优势在于深度集成 IDE 原生工具链,而非模拟替代。主要特性包括:Plan 模式生成结构化计划文档以防跑偏;原生调试器集成支持断点与运行时状态检查;支持异步远程控制长任务;基于项目上下文的交互式代码审查;以及模型自由切换以优化成本。Junie 标志着 AI 编程竞争正从模型能力转向工具集成深度。

#智能体#AI 编程
阅读全文
Claude Fable 5 实测
AI 产品工具
2026年6月13日
0 条评论
小创

Claude Fable 5 实测

Claude Fable 5 发布,定位为 Mythos 降权公开版,核心优势在于长程复杂任务的稳定性。该模型支持 1M token 上下文,在 Stripe 全库迁移等场景中表现优异。安全方面采用运行时分流机制,高风险请求自动路由至 Opus 4.8。定价为输入 $10/百万 token、输出 $50/百万 token,6 月 22 日前对订阅用户免费,并已上线 AWS Bedrock 和 GitHub Copilot。实测显示其代码生成与 3D 建模能力显著优于前代,建议针对长任务场景进行实

#AI 模型#Claude Fable 5
阅读全文
能自主运行数天的神话级模型 Claude Fable 5 正式发布
AI 产品工具
2026年6月13日
0 条评论
小创

能自主运行数天的神话级模型 Claude Fable 5 正式发布

Anthropic 发布最强模型 Claude Fable 5 并向公众开放。针对此前预览版存在的安全隐患,该模型引入安全路由机制,将高风险请求自动分流至 Opus 4.8 处理,在保障安全的同时释放通用能力。Fable 5 具备超高自主性,可连续数天独立处理金融、法律及科研等领域的复杂项目,无需人工干预。这种长周期、高自主性的任务处理能力,有望彻底改变现有工作流。

#Claude#AI 模型
阅读全文
互动讨论

评论区

围绕《Open-R1:DeepSeek-R1 的完全开源复现》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。