小型语言模型SLM突破计算瓶颈，FlashAttention与分布式数据并行助力苹果研究新方向

手机更适合小模型

尽管大型语言模型（LLM）在性能上表现出色，但它们在计算资源有限的设备上运行困难。相比之下，适合移动和边缘设备的小型语言模型（SLM）正逐渐成为研究和应用的热点。这些模型不仅能满足日常需求，而且在速度、效率和性价比方面表现出色。

小模型的兴起

许多研究者和应用开发者认为，SLM 是 AI 的未来。Meta 和 Mistral 等公司已经发布了多个 SLM，如 Llama 3.2 的 1B 和 3B 版本，以及社区开发的 BabyLlama 系列和 TinyLLaMA。这些模型通过剪枝、蒸馏和量化等技术，实现了与大模型相当甚至更好的性能。

苹果的研究

苹果的一项最新研究探讨了训练 SLM 的计算瓶颈。研究团队定义了“小规模大型语言模型”（参数量 ≤ 2B）的标准，并系统性地分析了不同硬件配置对 SLM 训练效率的影响。研究结果表明，对于更小型的模型，使用 A100-40GB GPU 和分布式数据并行（DDP）等低成本选择是可行的，而更大型的模型则需要更高级的硬件配置。

实验结果

研究团队评估了不同 GPU 类型、通信策略和批量大小对 SLM 训练的影响。实验结果显示：

1. FlashAttention 对 SLM 训练至关重要，特别是在处理较大 batch size 时。
2. A100-80GB GPU 适合处理更大模型和 batch size，而 A100-40GB GPU 则适合更小的模型。
3. 分布式数据并行（DDP）是小型模型的最佳选择，而完全分片数据并行（FSDP）适合 2B 参数的模型。
4. FSDP-Grad+Optimizer 由于较低的通信开销，表现优于 FSDP-Full。

本文来源：