「DeepSeek-R1接棒OpenAI,基于强化学习的多模态模型开源,引发AI圈性能对比热潮」

国内创业公司实现 OpenAI 愿景,多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域

最近,大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时,备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1,在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。

去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮,实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hansen 表示,DeepSeek-R1 使用了多阶段循环训练方式:基础 → RL(强化学习)→ 微调 → RL → 微调 → RL。UC Berkeley 教授 Alex Dimakis 认为,DeepSeek 已经处于领先地位,美国公司可能需要迎头赶上。

DeepSeek-R1 全面上线,性能卓越

目前,DeepSeek 在网页端、App 端和 API 端全面上线了 R1。用户可以选择 DeepSeek-R1 直接体验其强大的功能。R1 发布了两个参数为 660B 的版本——DeepSeek-R1-Zero 和 DeepSeek-R1,并选择开源了模型权重,允许用户使用 R1 来训练其他模型。技术层面上,R1 在后训练阶段大规模使用了强化学习技术,在仅用少量标注数据的情况下,极大提升了模型推理能力。

在多个数据集上的性能比较中,R1 与 o1-1217 不相上下、互有胜负。此外,DeepSeek-R1 蒸馏出了六个小模型,参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B,这些模型同样完全开源,旨在回馈开源社区,推动“Open AI”的边界。

性能和性价比优势显著

性能方面,蒸馏后的 R1 32B 和 70B 版本远远超过了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B,并逼近 o1-mini。开发者关心的 DeepSeek-R1 API 价格也非常具有竞争力。DeepSeek-R1 API 服务的定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。相比之下,OpenAI 的 API 定价为每百万输入 tokens 15 美元、每百万输出 tokens 60 美元,DeepSeek 显示出极高的性价比。

开源决心和技术突破

DeepSeek 秉持开源到底的决心,将 R1 模型的训练技术全部开放,并放出了背后的研究论文。以往的研究主要依赖大量的监督数据来提升模型性能。DeepSeek 的开发团队则开辟了一种全新的思路:即使不用监督微调(SFT)作为冷启动,通过大规模强化学习也能显著提升模型的推理能力。如果再加上少量的冷启动数据,效果会更好。为了做到这一点,他们开发了 DeepSeek-R1-Zero。

具体来说,DeepSeek-R1-Zero 主要有以下三点独特的设计:
1. 群组相对策略优化(GRPO):降低训练成本,直接从群组分数中估算基线。
2. 奖励设计:采用准确度和格式两种互补的奖励机制,确保输出的规范性。
3. 训练模板:引导基础模型先给出推理过程,再提供最终答案,最小干预设计能够清晰地观察模型在 RL 的进步过程。

DeepSeek-R1-Zero 的提升也非常显著。做 2024 年的 AIME 数学奥赛试卷时,DeepSeek-R1-Zero 的平均 pass@1 分数从最初的 15.6% 显著提升到了 71.0%,达到了与 OpenAI-o1-0912 相当的水平。在多数投票机制中,DeepSeek-R1-Zero 在 AIME 中的成功率进一步提升到了 86.7%,甚至超过了 OpenAI-o1-0912 的表现。

持续创新和未来展望

开发团队还利用冷启动数据进行强化学习,解决了早期不稳定的问题,并引入了语言一致性奖励,提高了模型的可读性和准确性。最后,通过蒸馏方法,使更高效的小模型具备了 DeepSeek-R1 那样的推理能力。得益于以上多项技术的创新,DeepSeek-R1 实现了比肩业内 SOTA 推理大模型的硬实力。

更多技术细节请参阅原论文:[DeepSeek_R1.pdf](https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...