AMD发布AMD-135M:开源小型语言模型通过推测解码实现性能提升3.88倍

AMD发布首款小型语言模型AMD-135M

10月1日,快科技报道,AMD正式发布了其首款小型语言模型(SLM),命名为“AMD-135M”。相较于当前日益庞大的大型语言模型(LLM),这款小型语言模型体积更小、灵活性更高,并且具有更强的专业性和隐私保护能力,非常适合企业内部部署。

AMD-135M的两个版本

AMD-135M属于Llama系列模型,共有两个版本:基础型“AMD-Llama-135M”和扩展型“AMD-Llama-135M-code”。基础型“AMD-Llama-135M”拥有6700亿个token,在八块Instinct MIM250 64GB加速器上进行了为期六天的训练。而扩展型“AMD-Llama-135M-code”则在此基础上增加了200亿个专门用于编程的token,并在同样的硬件配置下训练了四天。

推测解码技术的应用

在创建与部署过程中,AMD采用了“推测解码”(speculative decoding)方法。通过较小的草稿模型,在单次前向传播中生成多个候选token,然后发送给更大、更精确的目标模型进行验证或纠正。这种方法不仅能够同时生成多个token,而且不会影响整体性能,还能有效减少内存占用。然而,由于数据交换量增加,功耗也会随之上升。

AMD还使用“AMD-Llama-135M-code”作为CodeLlama-7b的草稿模型,测试了启用和禁用推测解码的效果。结果表明,在MI250加速器上,性能提升了约2.8倍;在锐龙AI CPU上,性能提升了约3.88倍;而在锐龙AI NPU上,则提升了约2.98倍。

开源资源

AMD已经将AMD-135M小模型的训练代码、数据集等相关资源全部开源,并遵循Apache 2.0许可协议。根据AMD的说法,该模型在多项任务上的表现与其他开源小型模型相当甚至略胜一筹,例如在Hellaswag、SciQ、ARC-Easy等任务上超过了Llama-68M和LLama-160M,而在Hellaswag、WinoGrande、SciQ、MMLU、ARC-Easy等任务上则接近GTP2-124MN和OPT-125M的表现。

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...