随着人工智能技术的快速发展,大模型训练和开发平台的需求日益增加。近日,Predibase 推出了一款全新的端到端强化微调(RFT)平台,该平台完全托管且无需服务器支持,为用户提供了更加便捷高效的解决方案。
Predibase 表示,DeepSeek-R1 的开源引发了全球 AI 领域的高度关注,许多人开始意识到强化学习微调在大模型训练中的重要性。基于这一启发,Predibase 开发了这款无服务器的端到端强化微调平台。与传统的监督式微调相比,RFT 不需要大量标注数据,而是通过奖励机制和自定义函数实现持续强化学习,同时支持从数据管理、模型训练到应用部署的一站式服务。
为了验证 RFT 的强大性能,Predibase 基于阿里云的 Qwen2.5-Coder-32B-instruct 模型,成功微调了一个名为 Predibase-T2T-32B-RFT 的新模型,专门用于将 PyTorch 代码转换为 Triton。此外,Predibase 还对其他大型基础模型(如 DeepSeek-R1、Claude 3.7 Sonnet 和 OpenAI o1)进行了内核正确性的基准测试。
与传统方法不同,Predibase-T2T-32B-RFT 利用 RFT 以交互方式调整模型行为,仅需少量标记数据即可显著优化下游任务质量。这使得它成为专有语言模型的高性价比替代方案。通过结合冷启动监督式微调、强化学习和课程学习,Predibase 在训练过程中仅使用了十几个标记数据点。
根据 Kernelbench 数据集的基准测试结果,经过强化后的 Qwen2.5-Coder-32B-instruct 模型在正确率方面比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍,比 Claude 3.7 Sonnet 高出 4 倍以上,同时模型占用的空间却减少了整整一个数量级。
开源地址:[https://huggingface.co/predibase/Predibase-T2T-32B-RFT](https://huggingface.co/predibase/Predibase-T2T-32B-RFT)
在线体验地址:[https://predibase.com/reinforcement-fine-tuning-playground](https://predibase.com/reinforcement-fine-tuning-playground)
