在当今大模型竞争的时代,算力与效率的平衡成为关键。端侧部署一直是大模型落地的难点,主要受限于算力瓶颈。面壁智能和清华大学提出了一种不同于MoE的技术路径——神经元级稀疏激活,使得模型在保持性能的同时显著减少资源消耗。
这项技术背后融合了脑科学灵感与工程创新。《Configurable Foundation Models: Building LLMs from a Modular Perspective》论文详细描述了这一探索。量子位邀请到面壁智能与清华CFM论文作者肖朝军,深入探讨了算力与效率之间的博弈以及大模型架构创新的未来。
探索原生稀疏
CFM(Configurable Foundation Models)是一种原生稀疏技术,利用模型本身的稀疏激活性质,相比MoE极大提升了参数效率。参数效率指单位参数的有效性,提升后能显著节省显存和内存。尤其在手机端应用中,由于内存有限,参数效率至关重要。
CFM与MoE的区别在于其更精细的稀疏粒度,强调神经元级别的稀疏化。MoE的稀疏粒度为专家级别,而CFM则更为细致,动态性强于MoE。例如,在任务复杂时可能需要激活10-100个神经元,而在简单任务中仅需激活1-2个。
模型架构之争
对于像Mamba、RWKV这些非transformer架构模型带来的挑战,肖朝军认为transformer仍是效果最好的架构。当前其他架构探索主要集中在效率上,而非效果。线性派和基于transformer的架构各有优劣,但尚无一种架构能在所有方面全面超越transformer。
小模型与智能未来
小模型的定义目前没有明确标准,但在端侧应用中通常指2-3B规模的模型。关于模型压缩极限,虽然发表过相关论文,但具体极限仍不明确。智能的本质可能更接近于抽象能力,而非单纯的压缩。
面壁智能的小模型已在多个场景落地,包括手机端、电脑端和智能家居等。在精度优化方面,FP8等低精度计算逐渐成为趋势,未来还可能发展到FP4。小模型在多模态方面的表现也不错,但在知识调度和理解上仍有差距。
超长文本推理被认为是transformer架构的下一个突破点。现有测试集难以全面评测这种长思维链能力,而创新能力问题则是另一个重要方向。线性架构在长文本推理中的优势尚未得到实证,且存在信息损失的问题。
大模型不可能三角问题仍然存在,Mamba等线性模型虽在短文本上有一定优势,但在长文本上仍存在问题。人类思考模式或许能提供一些启示,但具体解决方案尚未明确。
[论文地址](https://arxiv.org/abs/2409.02877)
本文来源: