低成本推理模型的突破:Sky-T1-32B-Preview

450 美元的价格乍一听不算便宜,但如果这是训练一个拥有 32B 参数的推理模型的成本呢?加州大学伯克利分校的天空计算实验室(NovaSky)最近发布了 Sky-T1-32B-Preview 模型,其训练成本仅为 450 美元。这一成果表明,高级推理能力的开发正变得越来越经济和高效。

开源贡献与技术细节

Sky-T1-32B-Preview 不仅在多个关键基准测试中表现出色,还成为第一个真正开源的推理模型。团队发布了训练数据集、代码和模型权重,任何人都可以轻松复制并改进该模型。这为学术界和开源社区提供了宝贵资源。

成本降低的背后

不久前,训练一个同等性能的模型可能需要数百万美元。通过使用合成训练数据或由其他模型生成的数据,成本大幅降低。例如,AI 公司 Writer 的 Palmyra X 004 几乎完全基于合成数据进行训练,开发成本仅为 70 万美元。

未来展望

随着大模型技术的迅速发展,未来的模型将可以在个人计算机上运行,甚至支持多达 2000 亿个参数。Nvidia Project Digits AI 超级计算机售价 3000 美元,使得高性能计算变得更加普及。

技术实现与优化

为了生成高质量的训练数据,团队使用了 QwQ-32B-Preview 进行数据整理,并采用了拒绝采样程序来提高数据质量。他们还用 GPT-4o-mini 将 QwQ trace 重写为结构规整的版本,以简化解析过程。这些优化措施显著提高了模型在各种任务中的表现。

训练与评估

团队使用 Qwen2.5-32B-Instruct 进行微调,采用 DeepSpeed Zero-3 offload 在 8 个 H100 GPU 上完成训练,总成本约为 450 美元。Sky-T1 在 MATH500 和 LiveCodeBench 等基准测试中表现出色,但在 GPQA-Diamond 上稍逊一筹。

关键发现

模型大小和数据混合对性能有重要影响。较大的模型(如 32B 参数)通常表现更好,而不同领域(如数学和编程)的任务需要不同的推理方法。均衡的数据混合使模型在两个领域都表现出色。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...