Falcon Mamba 7B依托Mamba架构换掉Transformer，以开放式源代码模型成就榜首位置：利用注意力机制实现任意长度的长序列处理

近期，阿联酋阿布扎比技术创新研究所（TII）发布了一款名为Falcon Mamba 7B的新模型，这款模型摒弃了传统的Transformer架构及其注意力机制，转而采用了Mamba状态空间语言模型架构，这一转变使其在性能方面全面超越了同规模的开源模型。Falcon Mamba 7B不仅能够在处理长序列时保持高效的计算效率，还能处理任意长度的序列而无需增加内存消耗。

Mamba架构详解：结合RNN与CNN优势

Mamba架构作为一款状态空间模型（SSM），融合了循环神经网络（RNN）和卷积神经网络（CNN）的优点，通过一种独特的选择机制，使模型能够根据当前输入选择性地传递或遗忘信息，进而提高了处理文本信息的效率。此外，Mamba还设计了一种硬件感知的并行算法，以递归模式运行，减少了GPU内存层级之间的I/O访问，进一步提升了计算效率。这种架构还巧妙地将SSM架构和Transformer中的MLP模块结合成一个单独的模块。

处理长序列的新方法：并行与顺序填充

研究者探讨了两种处理序列的方法：并行预填充和顺序填充。并行预填充法适用于GPU并行处理，但需要更多的内存资源；而顺序填充法则适用于SSM模型，能够处理任意长度的序列，并且不受内存限制的影响。这两种方法使得Falcon Mamba 7B能够在处理长序列时保持稳定的性能，尤其是在单个A10 24GB GPU上的表现尤为突出。

训练细节与稳定性保障

为了确保大规模训练过程中的稳定性，Falcon Mamba模型引入了额外的RMS标准化层。这种层简化了LayerNorm的计算过程，减少了计算量。模型使用了来自RefedWeb数据集及其他公开数据的5500GT数据进行训练，训练过程保持了基本匀速，并在训练后期加入了一定量的高质量策划数据，有助于模型在最后阶段的优化。实验证明，即使是在H100上处理长度为1至130k的提示词，Falcon Mamba 7B也能保持稳定的吞吐量，证明其处理长序列的能力非常出色。

开放获取与未来展望

Falcon Mamba 7B遵循TII Falcon License 2.0开放协议，用户可以在Apache 2.0许可下自由访问。该模型支持Hugging Face API，包括AutoModelForCausalLM和pipeline等。此外，还提供了一个经过额外50亿个token微调的指令调优版本，进一步提高了模型的准确性。目前，该模型已在Hugging Face和GitHub平台上开放下载。

本文来源：