DeepSeek-R1与Open R1强势登场，HuggingFace引领多阶段训练潮流，o3-mini助力1天狂揽1.9k星

DeepSeek-R1掀起全球大模型热潮，Open R1项目震撼登场！

近日，国产大模型DeepSeek-R1持续刷屏，吸引了全球AI领域的广泛关注。特别是由HuggingFace发起的Open R1项目，更是引发了热烈反响。仅在上线一天内，该项目就在GitHub上获得了1.9k星标，展现了其强大的吸引力和影响力。

HuggingFace联手打造开源R1

HuggingFace联合创始人兼CEO Clem Delangue表示：“我们的科学团队已经开始致力于完全复制和开源R1，包括训练数据、训练脚本等。我们希望通过开源AI的力量，让全世界每个人都能受益于AI的进步，并揭穿一些关于AI的神话。”

Open R1项目的三大步骤

为了实现这一目标，HuggingFace将根据DeepSeek-R1的技术报告，分三个步骤完成Open R1项目：

1. 蒸馏高质量语料库：使用DeepSeek-R1蒸馏出高质量的小模型，以复制R1-Distill模型。
2. 构建纯强化学习（RL）pipeline：复刻DeepSeek用于构建R1-Zero的纯强化学习流程，涉及数学、推理和代码的大规模数据集。
3. 多阶段训练：通过多阶段训练，从基础模型过渡到RL版本，逐步提升模型性能。

深度解析DeepSeek-R1的多阶段训练流程

根据DeepSeek的官方技术报告，Open R1项目的核心是实现R1数据蒸馏小模型的效果验证，并通过以下四个阶段进行多阶段训练：

1. 冷启动：用数千个长思维链（CoT）样本对基础模型进行监督微调（SFT），为模型提供初始推理能力。
2. 面向推理的强化学习：在此基础上，使用大规模强化学习方法进一步提升模型的推理能力，特别是在编程、数学、科学和逻辑推理任务上。
3. 拒绝采样和监督微调：再次使用监督微调，提升模型的非推理能力，如事实知识、对话能力等。
4. 针对所有场景的强化学习：确保模型行为与人类偏好保持一致，提升其可用性和安全性。

奥特曼坐不住了，o3-mini最新剧透

有趣的是，在DeepSeek-R1刷屏之际，奥特曼也带来了o3-mini的最新消息。ChatGPT Plus会员即将可以每天获得100条o3-mini查询，Plus会员还将率先体验operator功能。这一消息无疑为AI社区增添了更多期待和快乐。

本文来源：