阿里巴巴开源新模型Qwen2-Math:人工智能领域的数学推理专家,超越GPT-4o,数学能力全球领先!

阿里巴巴发布Qwen2-Math数学推理领域的全新突破

近期,阿里巴巴宣布开源了一款名为Qwen2-Math的强大数学模型,此模型旨在为数学推理领域带来革命性的进展。Qwen2-Math提供基础和指令微调两个版本,并包含了1.5B、7B和72B三种不同规模的参数配置。经过主流数学基准测试验证,Qwen2-Math-72B指令微调版展现出了超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro等知名闭源模型的卓越性能,甚至在与Meta的Llama-3.1-405B模型的竞争中也占据优势。这一成就确立了Qwen2-Math-72B在全球数学推理领域的领先地位。

基础模型的深度预训练

Qwen2-Math的基础模型基于Qwen2-1.5B、7B和72B进行初始化,并在专门构建的高质量数学语料库上进行了预训练。该语料库不仅涵盖了广泛的数学网络文本、书籍和代码,还包括了各类考试题目及由Qwen-2模型合成的数据。通过对这些资料的学习,基础模型在英语数学基准GSM8K、Math和MMLU-STEM以及中文数学基准CMATH、GaoKao Math Cloze和GaoKao Math QA上的表现显著优于Llama-3.1系列模型。

指令微调模型的技术革新

在指令微调模型的开发过程中,Qwen2-Math-72B采用了创新的训练方法,即结合了密集的奖励信号与二元信号。这种结合方式不仅指导模型准确回答问题,还能通过拒绝采样方法构建出更为有效的SFT数据集。此外,利用GRPO强化学习算法进一步优化了模型性能。在英语和中文数学基准评测中,Qwen2-Math-72B指令微调模型的表现同样令人印象深刻,它在多个高难度测试中超越了众多知名的开闭源模型。

应用前景与未来发展

阿里巴巴强调,Qwen2-Math不仅能解答复杂的数学竞赛题目,包括国际数学奥林匹克竞赛(IMO)的部分试题,而且还在预训练和微调数据集上进行了严格的去污染处理,确保了测试结果的准确性和公平性。尽管当前仅支持英文,但计划不久将推出中英双语版本,以便更广泛地服务于全球用户群体,推动生成式AI技术的应用与发展。

开源地址:
[Qwen2-Math](https://huggingface.co/Qwen)
[GitHub](https://github.com/QwenLM/Qwen2-Math?tab=readme-ov-file)

本文来源: ​AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...