终于,华为盘古大模型系列推出了全新的昇腾原生通用千亿级语言大模型。当前,各大科技公司纷纷发布百亿、千亿级模型,但大部分模型的训练依赖于英伟达的 GPU。在这种情况下,国内研究团队难以获得足够的计算资源,这限制了国内大模型技术的快速发展。然而,华为盘古发布的这项新研究表明,基于全国产的昇腾平台,同样可以实现领先的大规模语言模型的研究与开发。
技术报告Pangu Ultra: 推动 Ascend NPUs 上密集大型语言模型的极限
技术报告地址:[https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf](https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf)
研究显示,华为盘古团队成功开发出基于昇腾算力训练的千亿级通用语言大模型 Pangu Ultra。在性能上,Pangu Ultra 在多个领域和评测中超越了之前的 Llama 405B 和 Mistral Large 2 等稠密模型,并能与 DeepSeek-R1 等更大规模的稀疏模型相媲美。Pangu Ultra 是一个拥有 94 层架构、总参数量达 135B 的超大稠密模型。
为了解决超深千亿级大模型的训练稳定性问题,研究团队提出了新的稳定性架构和初始化方法,成功实现了在 13.2T 高质量数据上的全流程无 loss 突刺长稳训练。同时,在系统实现层面,团队通过一系列系统优化策略,在 8192 张昇腾 NPU 构建的大规模集群上将算力利用率(MFU)提升至 50%。
接下来,我们将从模型架构、模型训练等方面深入了解 Pangu Ultra 的技术细节。
模型架构
基础架构信息:Pangu Ultra 包含 1350 亿参数,采用了 94 层的 Transformer 结构。其中 FFN 使用 SwiGLU 激活,注意力层采用 GQA 降低 KV 缓存占用。
针对大规模极深模型的训练稳定性问题,Pangu Ultra 提出了 Depth-scaled sandwich-norm 和 TinyInit 初始化两项技术。
– Depth-scaled sandwich-norm:考虑到预训练的巨大成本,保证大模型的稳定训练至关重要。Pre-LN 虽然被广泛应用,但容易导致训练不稳定。Sandwich-Norm 可以保持单个子层输出的尺度稳定性,但跨越多层的残差连接仍会导致输出范数逐渐累积。为此,Pangu Ultra 提出了 Depth-Scaled Sandwich-Norm(DSSN),通过对每个子层输出的 layer norm 的 gamma 参数进行调控,确保各层输出尺度一致。
– TinyInit:模型初始化对训练稳定性和性能具有关键影响。Pangu 提出了根据模型深度和宽度缩放的参数初始化策略 TinyInit,所有权重初始化标准差,能加速 loss 收敛并提升下游任务性能。
分词器优化
Pangu Ultra 优化了分词器(Tokenizer)。传统方法常因数据分布导致通用文本占比过高,而代码、数学等专业领域的词元代表性不足。为解决此问题,Pangu Ultra 采用了「领域感知」的分词词表策略,生成了一个包含 153376 词元的分词词表,提升了词汇表在不同领域间的均衡性。
模型训练
– 预训练策略与数据:Pangu Ultra 的预训练过程分为三个阶段:12T tokens 的通用能力训练、0.8T tokens 的推理能力增训以及 0.4T tokens 的退火阶段。整个预训练语料覆盖了高质量、多样化的 13.2T tokens。
– 后训练策略与数据:通过两阶段优化实现能力跃升,首先采用监督微调(SFT)建立基础指令跟随能力,随后引入基于结果的强化学习(RL)框架,显著提升模型的复杂推理、价值对齐和指令执行能力。
系统优化
Pangu Ultra 135B 的训练环境是一个配备了 8192 个昇腾 NPU 的大规模计算集群。团队通过混合并行策略、细粒度负载均衡调优、高效融合算子等技术手段,在 8192 卡规模的集群中实现了超过 50% 的 MFU。
