Falcon Mamba 7B依托Mamba架构换掉Transformer,以开放式源代码模型成就榜首位置:利用注意力机制实现任意长度的长序列处理
摒弃注意力机制:Falcon Mamba 7B 开源模型强势崛起
近期,阿联酋阿布扎比技术创新研究所(TII)发布了一款名为Falcon Mamba 7B的新模型,这款模型摒弃了传统的Transformer架构及其注意力机制,转而采用了Mamba状态空间语言模型架构,这一转变使其在性能方面全面超越了同规模的开源模型。Falcon Mamba 7B不仅能够在处理长序列时保持高效的计算效率,还能处理任意长度的序列而无需增加内存消耗。
Mamba架构详解:结合RNN与CNN优势
Mamba架构作为一款状态空间模型(SSM),融合了循环神经网络(RNN)和卷积神经网络(CNN)的优点,通过一种独特的选择机制,使模型能够根据当前输入选择性地传递或遗忘信息,进而提高了处理文本信息的效率。此外,Mamba还设计了一种硬件感知的并行算法,以递归模式运行,减少了GPU内存层级之间的I/O访问,进一步提升了计算效率。这种架构还巧妙地将SSM架构和Transformer中的MLP模块结合成一个单独的模块。
处理长序列的新方法:并行与顺序填充
研究者探讨了两种处理序列的方法:并行预填充和顺序填充。并行预填充法适用于GPU并行处理,但需要更多的内存资源;而顺序填充法则适用于SSM模型,能够处理任意长度的序列,并且不受内存限制的影响。这两种方法使得Falcon Mamba 7B能够在处理长序列时保持稳定的性能,尤其是在单个A10 24GB GPU上的表现尤为突出。
训练细节与稳定性保障
为了确保大规模训练过程中的稳定性,Falcon Mamba模型引入了额外的RMS标准化层。这种层简化了LayerNorm的计算过程,减少了计算量。模型使用了来自RefedWeb数据集及其他公开数据的5500GT数据进行训练,训练过程保持了基本匀速,并在训练后期加入了一定量的高质量策划数据,有助于模型在最后阶段的优化。实验证明,即使是在H100上处理长度为1至130k的提示词,Falcon Mamba 7B也能保持稳定的吞吐量,证明其处理长序列的能力非常出色。
开放获取与未来展望
Falcon Mamba 7B遵循TII Falcon License 2.0开放协议,用户可以在Apache 2.0许可下自由访问。该模型支持Hugging Face API,包括AutoModelForCausalLM和pipeline等。此外,还提供了一个经过额外50亿个token微调的指令调优版本,进一步提高了模型的准确性。目前,该模型已在Hugging Face和GitHub平台上开放下载。
本文来源: 量子位【阅读原文】