马斯克 xAI 推出 Grok-1.5 大语言模型:提升推理能力,可处理 128k 上下文

近日,马斯克麾下的人工智能企业xAI在其官方网站发布重要公告,正式宣告Grok-1.5语言模型的诞生。这款升级版模型具备更强大的推理功能,支持长达128k的上下文长度,特别在编码和数学任务中展现出卓越性能。在接下来的数日里,Grok-1.5将逐步登陆?平台,供初期试用者和现有Grok用户抢先体验。

根据官方测试,Grok-1.5在MATH基准上得分50.6%,在GSM8K基准上达到90%,两项指标均涵盖了从小学到高中的各类数学难题。同时,它在HumanEval基准上表现出色,代码生成和问题解决能力得分高达74.1%。在长篇幅上下文理解上,Grok-1.5能处理超过128k tokens的信息,较前代提升了16倍的内存容量,有效处理更复杂的长文档内容。

Grok-1.5的构建基于JAX、Rust和Kubernetes的定制分布式训练框架,具备自动检测和剔除问题节点的自定义训练协调器。此外,xAI还对检查点、数据加载和训练作业重启进行了优化,以降低故障时的中断时间。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...