杨植麟与梁文锋在稀疏注意力框架和Transformer模型领域论文撞车,探讨MoBA游戏和长文本处理中的AGI应用进展

智东西报道:稀疏注意力框架MoBA助力长文本处理

2月19日,DeepSeek发布了最新的稀疏注意力框架NSA论文,仅仅5小时后,“大模型六小虎”之一的月之暗面Kimi团队也公布了一篇类似的MoBA论文。MoBA框架在处理超长序列任务时展现了高效、动态的注意力选择能力,提升了大模型的效率和性能,同时保持了与全注意力机制相当的效果。

MoBA与NSA的对比

MoBA是一个稀疏注意力框架,旨在提高长文本处理效率。与NSA相比,MoBA的最大上下文长度可扩展到10M tokens,而NSA最长为64k tokens。值得注意的是,DeepSeek创始人梁文锋是NSA论文的共同作者之一,而MoBA论文的共同作者包括月之暗面联合创始人杨植麟和周昕宇。

MoBA的主要特点

– 长上下文适配:MoBA架构能够在处理长达100万tokens的序列时,速度比全注意力架构快6.5倍;在扩展到1000万tokens时,计算时间比标准Flash Attention快16倍。
– 无参数门控机制:模型可以在全注意力与MoBA之间自由切换,与现有的Transformer预训练模型兼容度高。
– 性能验证:在多个长上下文基准测试中,MoBA的表现与全注意力模型相当,特别是在RULER基准测试中,MoBA的稀疏度高达62.5%,但性能几乎匹配全注意力模型。

长文本处理的重要性及现有方案的问题

月之暗面团队认为,实现AGI的关键能力之一是对长序列的处理。然而,传统注意力机制会导致计算复杂度呈二次方增长,研究者们需要一种既能提高效率又不牺牲性能的方法。现有稀疏注意力框架存在依赖预定义结构约束或未能显著降低训练成本等问题。

MoBA的设计灵感

MoBA架构通过动态选择历史片段(块)来提高Transformer模型处理长序列的效率。其设计灵感来源于混合专家(MoE)和稀疏注意力技术。核心创新在于将长序列分割成多个固定大小的块,并通过门控机制动态选择最相关的块,从而实现稀疏注意力。

具体实现步骤

1. 块分配:根据门控网络和因果掩码,确定每个查询token与哪些KV块相关联。
2. 顺序调整:按照块分配关系重新排列查询token的顺序,以便按块进行计算。
3. 块级注意力计算:对每个KV块及其对应的查询token分别计算注意力输出。
4. 输出重组:将计算完成的注意力输出重新排列回原始顺序。
5. 在线Softmax组合:使用在线Softmax将不同块的输出进行整合,确保最终结果的连贯性。

MoBA的性能表现

月之暗面团队通过实验验证了MoBA的一些关键设计选择。结果显示,MoBA的验证损失曲线与全注意力非常相似,表明其扩展性能相当。此外,MoBA在处理百万tokens时的速度比全注意力快6.5倍,在扩展到1000万tokens时,计算时间比标准Flash Attention快16倍。

新模型Kimi Latest发布

月之暗面还发布了一个新模型Kimi Latest,旨在弥合Kimi智能助手和开放平台之间的差异。这款模型支持自动上下文缓存,缓存命中的Tokens费用仅为1元/百万tokens。主要特点包括:
1. 使用Kimi智能助手最新的大模型。
2. 上下文长度为128k,自动选择计费模型。
3. 支持图片理解。
4. 支持自动上下文缓存。
5. 与其他moonshot-v1系列模型功能一致。

结语:国产开源AI竞赛升级

随着DeepSeek以现象级开源姿态引爆行业,国内大模型赛道掀起了开源军备竞赛。虽然月之暗面在这一竞赛中面临挑战,但其发布的MoBA框架和新模型Kimi Latest依然展示了其在长文本处理领域的创新实力。

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...