Mistral AI,一家初创公司,再次引起人工智能(AI)领域的轰动,通过发布一个281GB的磁力链,解禁了其最新的8x22B MoE(Mixture of Experts)模型。这款创新MoE模型拥有56层深度,48个注意力头,包含8个专家和2个活跃专家,上下文长度达到65k,彰显出强大的计算与处理能力。该模型的出现让社区用户兴奋不已,期待其与其他最先进的(SOTA)模型进行详细对比。
去年12月,Mistral AI首次发布的8x7B MoE模型就获得了广泛赞誉,其在基准测试中超越了参数量更大的Llama2模型。该模型能处理长达32k的上下文,并支持多种语言,如英语、法语等,且在代码生成方面表现出色。随后,今年2月推出的Mistral Large旗舰版模型,性能直逼GPT-4,尽管未开源,但展示了出色的逻辑推理和多语言任务处理能力。
最近,Mistral AI在Cerebral Valley黑客松活动中开源了Mistral7B v0.2基础模型,支持32k上下文,无滑动窗口,Rope Theta 设定为1e6。现在,最新型号的8x22B MoE模型已在抱抱脸平台上线,为社区开发者提供了构建自定义应用的新工具。
本文来源: 新智元公众号【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...