DeepSeek-R1掀起全球大模型热潮,Open R1项目震撼登场!
近日,国产大模型DeepSeek-R1持续刷屏,吸引了全球AI领域的广泛关注。特别是由HuggingFace发起的Open R1项目,更是引发了热烈反响。仅在上线一天内,该项目就在GitHub上获得了1.9k星标,展现了其强大的吸引力和影响力。
HuggingFace联手打造开源R1
HuggingFace联合创始人兼CEO Clem Delangue表示:“我们的科学团队已经开始致力于完全复制和开源R1,包括训练数据、训练脚本等。我们希望通过开源AI的力量,让全世界每个人都能受益于AI的进步,并揭穿一些关于AI的神话。”
Open R1项目的三大步骤
为了实现这一目标,HuggingFace将根据DeepSeek-R1的技术报告,分三个步骤完成Open R1项目:
1. 蒸馏高质量语料库:使用DeepSeek-R1蒸馏出高质量的小模型,以复制R1-Distill模型。
2. 构建纯强化学习(RL)pipeline:复刻DeepSeek用于构建R1-Zero的纯强化学习流程,涉及数学、推理和代码的大规模数据集。
3. 多阶段训练:通过多阶段训练,从基础模型过渡到RL版本,逐步提升模型性能。
深度解析DeepSeek-R1的多阶段训练流程
根据DeepSeek的官方技术报告,Open R1项目的核心是实现R1数据蒸馏小模型的效果验证,并通过以下四个阶段进行多阶段训练:
1. 冷启动:用数千个长思维链(CoT)样本对基础模型进行监督微调(SFT),为模型提供初始推理能力。
2. 面向推理的强化学习:在此基础上,使用大规模强化学习方法进一步提升模型的推理能力,特别是在编程、数学、科学和逻辑推理任务上。
3. 拒绝采样和监督微调:再次使用监督微调,提升模型的非推理能力,如事实知识、对话能力等。
4. 针对所有场景的强化学习:确保模型行为与人类偏好保持一致,提升其可用性和安全性。
奥特曼坐不住了,o3-mini最新剧透
有趣的是,在DeepSeek-R1刷屏之际,奥特曼也带来了o3-mini的最新消息。ChatGPT Plus会员即将可以每天获得100条o3-mini查询,Plus会员还将率先体验operator功能。这一消息无疑为AI社区增添了更多期待和快乐。
本文来源: 量子位【阅读原文】