标签:数学基准

马斯克 xAI 推出 Grok-1.5 大语言模型:提升推理能力,可处理 128k 上下文

近日,马斯克麾下的人工智能企业xAI在其官方网站发布重要公告,正式宣告Grok-1.5大语言模型的诞生。这款升级版模型具备更强大的推理功能,支持长达128k的上下文长度,特别在编码和数学任务中展现出卓越性能。在接下来的数日里,Grok-1.5将逐步登陆?平台,供初期试用者和现有Grok用户抢先体验。 根据官方测试,Grok-1.5在MATH基准上得分50.6%,在GSM8K基准上达到90%,两项指标均涵盖了从小学到高中的各类数学难题。同时,它在HumanEval基准上表现出色,代码生成和问题解决能力得分高达74.1%。在长篇幅上下文理解上,Grok-1.5...