标签：混合专家模型

探索OLMoE：首个100%开源的混合专家模型，拥有7B参数与1B稀疏激活的高效推理成本

训练代码、中间checkpoint、训练日志和训练数据都已经开源。尽管大语言模型（LM）在各类任务中取得了显著进展，但在训练和推理方面，性能与成本之间的权衡仍然是一个问题。对于很多学者和开发者而言，高性能的语言模型由于高昂的成本而难以触及。一种改善成本-性能的方法是采用稀疏激活混合专家（MoE）。MoE在每一层都有多个专家，每次只激活其中的一部分，从而使得MoE模型比密集模型更高效。因此，许多前沿模型如Gemini-1.5和GPT-4等都采用了MoE。然而，大多数MoE模型都是闭源的，即便有些模型公开了权重，但对于训练数据...

来源：

机器之心【阅读原文】
Tags：OLMoE 大语言模型开源模型混合专家模型稀疏激活

7个月前

马斯克突然开源Grok：3140亿参数巨无霸，免费可商用

马斯克旗下的大模型Grok最近宣布开源，成为目前最大参数量的开源模型，拥有3140亿参数。Grok-1基于混合专家（MoE）架构，包含8个专家，其中两个专家在处理任务时被激活，激活参数量高达86B。尽管模型规模庞大，需要高性能GPU和内存支持，但Grok-1的开源代码和权重已在GitHub上发布，采用Rust编程语言和JAX框架。此外，Grok-1的embedding方式、窗口长度、vocab大小等技术细节也被公开。开源许可协议为Apache 2.0，允许商业使用。马斯克此举被认为是对OpenAI封闭政策的回应，同时特斯拉、SpaceX和Twitter等其他业务也在不断创新。

来源：

量子位【阅读原文】
Tags：Grok 参数量开源混合专家模型马斯克

1年前 (2024)