标签：MoE模型

性能对标Llama 3，算力消耗仅1/19！源2.0-M32大幅提升模算效率

浪潮信息发布了开源大模型源2.0-M32，该模型基于MoE技术，拥有32个专家模块和400亿参数，但在运行时仅需37亿激活参数，大大降低了算力需求。相比700亿参数的Llama 3，源2.0-M32在训练、微调和推理过程中的算力消耗显著减少，实现了性能与效率的双重提升。在模型推理阶段，源2.0-M32的算力需求仅为Llama 3的1/19。此外，源2.0-M32在微调训练阶段的算力消耗也远低于Llama 3。通过算法结构创新，如门控网络技术和局部注意力过滤增强机制，源2.0-M32提升了模型精度，同时降低了算力消耗。浪潮信息致力于为企业提供更经济、高效的...

来源：

智东西【阅读原文】
Tags：MoE模型开源大模型浪潮信息源2.0-M32 算力效率

10个月前

首个国产音乐SOTA模型来了！专为中文优化，免费用，不限曲风

随着“天工”大模型周年纪念，昆仑万维推出“天工 3.0”基座模型与“天工 SkyMusic”音乐模型，开启公测。AI音乐创作工具如Suno使得音乐创作变得趣味盎然，但也存在中文生成不稳定的问题。而“天工 SkyMusic”专门针对中文优化，提供清晰、地道的中文发音，支持普通话和多种方言。相较于Suno，天工 SkyMusic在音质、自然度和可懂度上表现出色，成为首个中国音乐AIGC的SOTA模型。 “天工 3.0”模型拥有4000亿参数，超越其他大模型，成为全球最大开源MoE模型，引领全球AIGC技术。天工 SkyMusic能根据歌词控制情绪，实现多样化的歌唱技巧...

来源：

机器之心【阅读原文】
Tags：4000亿参数 AI音乐创作 MoE模型天工 3.0 天工 SkyMusic

12个月前

刚刚，Mistral AI最新磁力链放出！8x22B MoE模型，281GB解禁

Mistral AI，一家初创公司，再次引起人工智能（AI）领域的轰动，通过发布一个281GB的磁力链，解禁了其最新的8x22B MoE（Mixture of Experts）模型。这款创新MoE模型拥有56层深度，48个注意力头，包含8个专家和2个活跃专家，上下文长度达到65k，彰显出强大的计算与处理能力。该模型的出现让社区用户兴奋不已，期待其与其他最先进的（SOTA）模型进行详细对比。去年12月，Mistral AI首次发布的8x7B MoE模型就获得了广泛赞誉，其在基准测试中超越了参数量更大的Llama2模型。该模型能处理长达32k的上下文，并支持多种语言，如英...

来源：

新智元公众号【阅读原文】
Tags：8x22B AI社区 Mistral AI MoE模型磁力链

12个月前