标签:稀疏注意力框架
杨植麟与梁文锋在稀疏注意力框架和Transformer模型领域论文撞车,探讨MoBA游戏和长文本处理中的AGI应用进展
智东西报道:稀疏注意力框架MoBA助力长文本处理 2月19日,DeepSeek发布了最新的稀疏注意力框架NSA论文,仅仅5小时后,“大模型六小虎”之一的月之暗面Kimi团队也公布了一篇类似的MoBA论文。MoBA框架在处理超长序列任务时展现了高效、动态的注意力选择能力,提升了大模型的效率和性能,同时保持了与全注意力机制相当的效果。 MoBA与NSA的对比 MoBA是一个稀疏注意力框架,旨在提高长文本处理效率。与NSA相比,MoBA的最大上下文长度可扩展到10M tokens,而NSA最长为64k tokens。值得注意的是,DeepSeek创始人梁文锋是NSA论文的...