标签:混合专家模型

探索OLMoE:首个100%开源的混合专家模型,拥有7B参数与1B稀疏激活的高效推理成本

训练代码、中间checkpoint、训练日志和训练数据都已经开源。尽管大语言模型(LM)在各类任务中取得了显著进展,但在训练和推理方面,性能与成本之间的权衡仍然是一个问题。对于很多学者和开发者而言,高性能的语言模型由于高昂的成本而难以触及。一种改善成本-性能的方法是采用稀疏激活混合专家(MoE)。MoE在每一层都有多个专家,每次只激活其中的一部分,从而使得MoE模型比密集模型更高效。因此,许多前沿模型如Gemini-1.5和GPT-4等都采用了MoE。 然而,大多数MoE模型都是闭源的,即便有些模型公开了权重,但对于训练数据...

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

马斯克旗下的大模型Grok最近宣布开源,成为目前最大参数量的开源模型,拥有3140亿参数。Grok-1基于混合专家(MoE)架构,包含8个专家,其中两个专家在处理任务时被激活,激活参数量高达86B。尽管模型规模庞大,需要高性能GPU和内存支持,但Grok-1的开源代码和权重已在GitHub上发布,采用Rust编程语言和JAX框架。此外,Grok-1的embedding方式、窗口长度、vocab大小等技术细节也被公开。开源许可协议为Apache 2.0,允许商业使用。马斯克此举被认为是对OpenAI封闭政策的回应,同时特斯拉、SpaceX和Twitter等其他业务也在不断创新。