微软研究院近日推出了最新一代的小参数模型——Phi-4。作为Phi系列的第五代产品,Phi-4依然保持了小参数的特点,仅有140亿参数。尽管参数量较小,但Phi-4在多个基准测试中表现出色,尤其是在GPQA研究生水平和MATH数学基准测试中,分别取得了56.1%和80.4%的成绩,超越了GPT-4o、Qwen2.5-14B和Llama-3.3-70B等知名模型。在美国数学竞赛AMC的测试中,Phi-4更是取得了91.8分的优异成绩,超过了GeminiPro1.5、GPT-4o、Claude3.5Sonnet和Qwen2.5等模型,甚至在整体性能上可与4050亿参数的Llama-3.1相媲美。
Phi-4之所以能够以如此小的参数量取得如此高的性能,关键在于其使用了高质量的合成数据和创新的训练方法。传统的大型模型通常依赖于从互联网或公开数据库中抓取的真实世界文本作为训练数据,这种方法虽然提供了丰富的信息来源,但也容易受到噪声和偏见的影响。相比之下,Phi-4采用了一种更为精细的合成数据生成方法,包括种子策划、多Agent提示、自我修订工作流、重写和增强以及指令反转等多种技术。
种子策划是合成数据生成的起点。Phi-4从多个领域提取高质量的数据种子,为合成数据生成打下了坚实的基础。这些种子数据包括从网页、书籍和代码库中提取的文段和代码片段,涵盖了高复杂性、深度推理和教育价值的。为了确保数据质量,Phi-4采用了两阶段的过滤过程:首先识别具有强教育潜力的页面,然后将选定的页面分割成段落,并对每个段落进行事实和推理的评分。
多Agent提示允许不同的智能体之间进行交互对话,从而创造出更加多样化且贴近真实应用场景的交流场景。自我修订工作流则鼓励模型参与自身的编辑过程,提高输出的质量和一致性。通过改变任务描述的方式,指令反转增加了模型处理不同类型问题的能力,进一步增强了其灵活性和适应性。总体而言,Phi-4生成了50种不同类型的合成数据集,涵盖了广泛的主题和技能,总计约400B未加权的高质量token数据。
为了确保Phi-4在各种任务类型上表现出色,研究人员使用了一系列针对性的创新训练方法,并根据实际需求调整了各类数据的比例。特别是针对长上下文理解能力的需求,Phi-4增加了rope位置编码的基础频率至25万次,并相应地降低了最大学习率,以更好地适应更长的文本序列。这种做法有效提升了模型对复杂结构化信息的理解力,使其在面对需要综合分析多个段落甚至整篇文章的问题时也能游刃有余。
在后训练过程中,研究团队采用了两种形式的DPO数据对模型进行了强化训练。第一种是基于人工标注的SFT数据,即由专家精心挑选并标记好的问答对;第二种则是自动构建的DPO对,通过搜索重要的转折点,将原始对话片段拆分成多个选项,并让模型从中选择最优解。通过结合这两种方式,Phi-4不仅学会了如何产生更符合预期的回答,还能够在不同情境下灵活调整语气和风格,提供更加个性化的交互体验。
此外,Phi-4还引入了一些创新性的后训练方法,以增强其在特定领域内的表现。例如,在STEM领域问题解答方面,Phi-4利用了一个名为Math-Shepherd的工具进行验证和强化学习。Math-Shepherd可以自动检查模型生成的答案是否正确,并在必要时提供额外指导,帮助模型逐步掌握正确的解题思路。这种方法有效地解决了传统无监督数据集中常见的逻辑不严密等问题,使Phi-4在数学竞赛类题目上的准确率达到了80.4%,远超其他同类产品。
在编程代码评估任务中,Phi-4也采取了类似的方法,通过对大量开源项目中的代码片段进行分析和总结,提升了其在该领域的执行效率和准确性。值得一提的是,微软AI副总裁、Phi系列模型的灵魂人物之一Sébastien Bubeck已经离开微软,加入了OpenAI。
本文来源: AIGC开放社区公众号【阅读原文】