微软推出下一代140亿参数小模型Phi-4，数学性能超越GPT-4

微软近日正式发布了其下一代小型语言模型Phi-4，该模型拥有140亿参数，并且在数学性能上显著超越了GPT-4和Gemini Pro 1.5等竞争对手。根据最新发布的36页技术报告，Phi-4不仅在GPQA和MATH基准测试中表现出色，还在2024年ACM数学竞赛问题上取得了91.8%的准确率。

Phi-4的技术突破与优势
Phi-4的成功主要归功于三大核心技术突破：
1. 合成数据的广泛应用：Phi-4在训练过程中使用了高达40%的合成数据，这些数据通过多智能体提示、自修订工作流和指令反转等技术生成，构建了一个高效的推理和问题解决能力的数据集。
2. 高质量有机数据筛选：精选高复杂性、推理深度和教育价值的，确保训练数据的质量。
3. 后训练优化：采用关键token搜索（Pivotal Tokens Search）和直接偏好优化（DPO）等方法，进一步提升了模型的输出质量。

合成数据的重要性
合成数据并不是有机数据的廉价替代品，而是具有显著优势。它通过结构化和支持渐进式学习，使得模型训练更加高效。此外，合成数据可以将网络论坛中的改写成与大模型交互时的语言风格，从而更好地对齐训练与推理上下文。

Phi-4的实际应用与表现
为了验证Phi-4的泛化性能，研究者在2024年11月的AMC-10和AMC-12数学竞赛上进行了测试。结果显示，尽管只有14B参数，Phi-4的表现依然大幅超过了教师模型GPT-4。特别是在STEM领域的问答任务上，Phi-4展现了卓越的实力，甚至优于一些更大的模型如Llama-3.3-70B-Instruct。

关键token搜索（PTS）的作用
PTS是Phi-4后训练阶段的核心技术之一。通过识别和优化关键token，PTS帮助模型在解答数学问题时做出更优的选择，从而提高解题成功率。实验表明，这种方法有效减少了SimpleQA中的幻觉现象，并提高了整体性能。

本文来源：