微软近日正式发布了其下一代小型语言模型Phi-4,该模型拥有140亿参数,并且在数学性能上显著超越了GPT-4和Gemini Pro 1.5等竞争对手。根据最新发布的36页技术报告,Phi-4不仅在GPQA和MATH基准测试中表现出色,还在2024年ACM数学竞赛问题上取得了91.8%的准确率。
Phi-4的技术突破与优势
Phi-4的成功主要归功于三大核心技术突破:
1. 合成数据的广泛应用:Phi-4在训练过程中使用了高达40%的合成数据,这些数据通过多智能体提示、自修订工作流和指令反转等技术生成,构建了一个高效的推理和问题解决能力的数据集。
2. 高质量有机数据筛选:精选高复杂性、推理深度和教育价值的,确保训练数据的质量。
3. 后训练优化:采用关键token搜索(Pivotal Tokens Search)和直接偏好优化(DPO)等方法,进一步提升了模型的输出质量。
合成数据的重要性
合成数据并不是有机数据的廉价替代品,而是具有显著优势。它通过结构化和支持渐进式学习,使得模型训练更加高效。此外,合成数据可以将网络论坛中的改写成与大模型交互时的语言风格,从而更好地对齐训练与推理上下文。
Phi-4的实际应用与表现
为了验证Phi-4的泛化性能,研究者在2024年11月的AMC-10和AMC-12数学竞赛上进行了测试。结果显示,尽管只有14B参数,Phi-4的表现依然大幅超过了教师模型GPT-4。特别是在STEM领域的问答任务上,Phi-4展现了卓越的实力,甚至优于一些更大的模型如Llama-3.3-70B-Instruct。
关键token搜索(PTS)的作用
PTS是Phi-4后训练阶段的核心技术之一。通过识别和优化关键token,PTS帮助模型在解答数学问题时做出更优的选择,从而提高解题成功率。实验表明,这种方法有效减少了SimpleQA中的幻觉现象,并提高了整体性能。