标签：大规模预训练

阿里半夜开源全新推理模型QwQ-32B，基于强化学习与大规模预训练实现性能显著提升，挑战DeepSeek-R1满血版，迈向AGI新征程

阿里发布QwQ-32B：强化学习助力大模型性能突破今天凌晨3点，阿里开源发布了全新推理模型QwQ-32B，该模型参数量为320亿，但其性能足以媲美6710亿参数的DeepSeek-R1满血版。千问团队在推文中表示：“这次，我们研究了扩展强化学习（RL）的方法，并基于我们的Qwen2.5-32B取得了一些令人印象深刻的成果。我们发现，通过持续的RL训练可以显著提高模型性能，尤其是在数学和编码任务上，并且中型模型也能实现与巨型MoE模型相媲美的效果。” QwQ-32B已正式在Hugging Face和ModelScope平台开源，采用Apache 2.0开源协议。用户可以通...

来源：

机器之心【阅读原文】
Tags：AGI QwQ-32B 大规模预训练强化学习性能提升

3天前