国产中文o1大模型问世,数学竞赛题直接考验!
昆仑万维近日发布了其最新的Skywork o1大模型,首次展示了强大的中文逻辑推理能力,并启动了邀测计划。为了测试其推理能力,我们选择了一道AIME数学竞赛题进行实测。
AIME数学竞赛题:
Aya每天早晨会进行一段9公里的散步,并在一家咖啡店停留。当她以每小时s公里的速度行走时,整个过程(包括在咖啡店停留的t分钟)需要4小时。如果她以s+2公里每小时的速度行走,整个过程(包括在咖啡店停留的时间)需要2小时24分钟。假设Aya以s+1/2公里每小时的速度行走,求她在这种情况下(包括在咖啡店停留的时间)的总时间(以分钟为单位)。
Skywork o1通过建立方程组,逐步解析了步行速度、时间和距离的关系,并最终得出了正确的答案——204分钟,与标准答案一致。
高考数学题测试:
接下来,我们用一道高考数学题继续测试Skywork o1的推理能力。题目如下:
已知函数 ( f(x) = a(x – 1) – ln x + 1 )。
1. 求 ( f(x) ) 的单调区间;
2. 当 ( alpha leq 2 ) 时,证明:当 ( x > 1 ) 时, ( f(x) < e^{x-1} ) 恒成立。
Skywork o1同样采用了分步解决的方法,逐步推导并验证了每个步骤,最终给出了与标准答案一致的结果。
Skywork o1系列模型:
Skywork o1系列包括三个细分模型:
– Skywork o1 Open:基于Llama 3.1的8B开源模型,解锁了轻量级模型无法解决的复杂数学任务。
– Skywork o1 Lite:具备完整的思考能力,具有更好的中文支持和更快的推理速度。
– Skywork o1 Preview:本次完整版的推理模型,搭配自研的线上推理算法,使推理过程更完善、高质量。
性能提升:
Skywork o1 Open在MATH数据集上的表现超过了同生态位的SOTA模型,如Qwen-2.5-7B-Instruct。此外,8B的Skywork o1 Open还能完成一些较大量级模型无法完成的数学推理任务,如24点计算,为轻量级设备上的部署提供了可能性。
开源贡献:
昆仑万维还开源了两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和 Skywork o1 Open-PRM-7B。这些模型能够对每个推理步骤进行评分,帮助模型纠正错误思维链,提升整体推理质量。
多维度测试:
除了数学题,Skywork o1在其他推理任务上的表现也非常出色。例如,经典问题“9.9和9.11哪个大”、脑筋急转弯和加密问题等,Skywork o1都能准确且高效地给出答案。
优化方向:
尽管Skywork o1在复杂任务中表现出色,但在处理简单问题时略显啰嗦。团队表示将对此进行优化,以提升用户体验。
技术方案:
Skywork o1的推理能力主要得益于三阶段的自研技术方案:
1. 推理反思能力训练:通过高质量的分步思考、反思和验证数据,提升模型的复杂任务推理能力。
2. 推理能力强化学习:使用Skywork o1 Process Reward Model(PRM)进行分步推理的强化学习,确保每一步都优化推理路径。
3. 推理规划:首次应用Q*算法,结合在线思考能力,寻找最佳推理路径,显著提升模型的在线推理能力。
类o1模型的重要性:
类o1模型标志着能够进行通用复杂推理的AI的新范式,满足了市场对高性能推理模型的需求。特别是在科学研究、编程、数据分析等领域,类o1模型通过增加推理时的算力和时间投入,实现了显著的性能提升。
昆仑万维在大模型时代的表现一直走在前列,此次发布的Skywork o1更是进一步巩固了其在国产大模型领域的领先地位。
本文来源: 量子位【阅读原文】