国产Skywork o1首秀，挑战AIME数学竞赛与高考数学题，展示类o1模型的中文逻辑推理能力！

国产中文o1大模型问世，数学竞赛题直接考验！

昆仑万维近日发布了其最新的Skywork o1大模型，首次展示了强大的中文逻辑推理能力，并启动了邀测计划。为了测试其推理能力，我们选择了一道AIME数学竞赛题进行实测。

AIME数学竞赛题：

Aya每天早晨会进行一段9公里的散步，并在一家咖啡店停留。当她以每小时s公里的速度行走时，整个过程（包括在咖啡店停留的t分钟）需要4小时。如果她以s+2公里每小时的速度行走，整个过程（包括在咖啡店停留的时间）需要2小时24分钟。假设Aya以s+1/2公里每小时的速度行走，求她在这种情况下（包括在咖啡店停留的时间）的总时间（以分钟为单位）。

Skywork o1通过建立方程组，逐步解析了步行速度、时间和距离的关系，并最终得出了正确的答案——204分钟，与标准答案一致。

高考数学题测试：

接下来，我们用一道高考数学题继续测试Skywork o1的推理能力。题目如下：

已知函数 ( f(x) = a(x – 1) – ln x + 1 )。
1. 求 ( f(x) ) 的单调区间；
2. 当 ( alpha leq 2 ) 时，证明：当 ( x > 1 ) 时， ( f(x) < e^{x-1} ) 恒成立。

Skywork o1同样采用了分步解决的方法，逐步推导并验证了每个步骤，最终给出了与标准答案一致的结果。

Skywork o1系列模型：

Skywork o1系列包括三个细分模型：
– Skywork o1 Open：基于Llama 3.1的8B开源模型，解锁了轻量级模型无法解决的复杂数学任务。
– Skywork o1 Lite：具备完整的思考能力，具有更好的中文支持和更快的推理速度。
– Skywork o1 Preview：本次完整版的推理模型，搭配自研的线上推理算法，使推理过程更完善、高质量。

性能提升：

Skywork o1 Open在MATH数据集上的表现超过了同生态位的SOTA模型，如Qwen-2.5-7B-Instruct。此外，8B的Skywork o1 Open还能完成一些较大量级模型无法完成的数学推理任务，如24点计算，为轻量级设备上的部署提供了可能性。

开源贡献：

昆仑万维还开源了两个推理任务的Process Reward Model（PRM）：Skywork o1 Open-PRM-1.5B 和 Skywork o1 Open-PRM-7B。这些模型能够对每个推理步骤进行评分，帮助模型纠正错误思维链，提升整体推理质量。

多维度测试：

除了数学题，Skywork o1在其他推理任务上的表现也非常出色。例如，经典问题“9.9和9.11哪个大”、脑筋急转弯和加密问题等，Skywork o1都能准确且高效地给出答案。

优化方向：

尽管Skywork o1在复杂任务中表现出色，但在处理简单问题时略显啰嗦。团队表示将对此进行优化，以提升用户体验。

技术方案：

Skywork o1的推理能力主要得益于三阶段的自研技术方案：
1. 推理反思能力训练：通过高质量的分步思考、反思和验证数据，提升模型的复杂任务推理能力。
2. 推理能力强化学习：使用Skywork o1 Process Reward Model（PRM）进行分步推理的强化学习，确保每一步都优化推理路径。
3. 推理规划：首次应用Q*算法，结合在线思考能力，寻找最佳推理路径，显著提升模型的在线推理能力。

类o1模型的重要性：

类o1模型标志着能够进行通用复杂推理的AI的新范式，满足了市场对高性能推理模型的需求。特别是在科学研究、编程、数据分析等领域，类o1模型通过增加推理时的算力和时间投入，实现了显著的性能提升。

昆仑万维在大模型时代的表现一直走在前列，此次发布的Skywork o1更是进一步巩固了其在国产大模型领域的领先地位。

本文来源：