标签：稀疏注意力框架

杨植麟与梁文锋在稀疏注意力框架和Transformer模型领域论文撞车，探讨MoBA游戏和长文本处理中的AGI应用进展

智东西报道：稀疏注意力框架MoBA助力长文本处理 2月19日，DeepSeek发布了最新的稀疏注意力框架NSA论文，仅仅5小时后，“大模型六小虎”之一的月之暗面Kimi团队也公布了一篇类似的MoBA论文。MoBA框架在处理超长序列任务时展现了高效、动态的注意力选择能力，提升了大模型的效率和性能，同时保持了与全注意力机制相当的效果。 MoBA与NSA的对比 MoBA是一个稀疏注意力框架，旨在提高长文本处理效率。与NSA相比，MoBA的最大上下文长度可扩展到10M tokens，而NSA最长为64k tokens。值得注意的是，DeepSeek创始人梁文锋是NSA论文的...

来源：

智东西【阅读原文】
Tags：AGI MoBA Transformer模型稀疏注意力框架长文本处理

2个月前