智谱AI深夜发布GLM模型开源项目，AutoGLM沉思数理推理性能，定义大模型新标杆

好消息！还记得「AutoGLM 沉思」吗？仅仅 14 天内，就成功孵化出一个拥有超过 5000 粉丝的小红书账号，并且还接到了商业合作订单！与 OpenAI 的 Deep Research 相比，「AutoGLM 沉思」不仅具备深度思考能力（deep research），还能在思考的同时付诸行动（operator）！今天，智谱正式宣布其核心技术链路全面开源！包括：基础模型 GLM-4-32B-0414、推理模型 GLM-Z1-32B-0414 和沉思模型 GLM-Z1-Rumination-32B-0414。此外，小尺寸的 9B 系列也同步开源，包含 GLM-4-9B-0414 和 GLM-Z1-9B-0414。所有模型均遵循 MIT 许可协议。用户可以通过 z.ai 访问和体验这些模型。新版基础模型和推理模型现已上线智谱 MaaS 平台。

作为国内最早开放大模型的人工智能公司，智谱始终致力于推动 AI 技术的普惠化。随着开源生态建设成为新一轮竞争的核心，智谱明确表示 2025 年将是其开源年，持续加码生态系统的构建。此次开源的顶尖模型分为两种尺寸：

新一代基础模型 GLM-4-32B-0414 拥有 32B 参数量，性能媲美主流的大参数量模型。由于在预训练阶段引入了更多代码类和推理类数据，并在对齐阶段优化了智能体能力，该模型展现了行业领先的行动能力，在工具调用、联网搜索和代码编写等智能体任务上表现出色。GLM-4-32B-0414 支持在对话过程中实时生成代码，涵盖 HTML、CSS、JS 和 SVG 等语言。用户无需切换程序，只需一键点击即可在对话窗口中实时查看代码运行结果，并进行灵活修改和调整。

同时开源的 GLM-Z1-32B-0414 推理模型树立了「以小博大」的典范。基于新一代基础模型，它在预训练阶段加入了更多推理类数据，并在对齐阶段深度优化了通用能力。尽管只有 320 亿参数量，却能实现满血版 DeepSeek-R1（6710 亿参数）的推理性能。在 AIME 24/25、LiveCodeBench 和 GPQA 等基准测试中，该模型展现出强大的数理推理能力，与满血版 DeepSeek-R1 不相上下，能够胜任复杂任务。成本方面也是亮点之一。通过优化 GQA 参数、量化和投机采样等技术，该推理模型能够在消费级显卡上流畅运行，同时实现每秒 200 token 的极速响应，相当于人类语速的 50 倍，带来「问题未看清，答案已生成」的极致体验。

GLM-Z1-Rumination-32B-0414 沉思模型代表了新一代 AI 的发展方向。相比之前仅停留在深度思考阶段的推理模型，这个经过强化学习训练的版本展现了更强的自主能力。它不再局限于静态知识推理，而是能够像人类研究者一样主动联网搜索资料、调用各种工具、进行深度分析并自我验证，形成完整的思考闭环。这种「实时搜索-深度分析-动态验证」的循环思考模式，使 AI 在处理开放性问题时更加得心应手，标志着 AI 从单纯的高智商向高智商与高自主并重的转变。当然，作为前沿技术，该模型在自主探索和准确性方面仍有提升空间，研发团队正在持续优化中。

最后，GLM-Z1-9B-0414 是一个小而强大的惊喜。尽管尺寸较小，GLM-Z1-9B-0414 在数学推理和通用任务中依然表现优异，整体表现处于同尺寸开源模型中的领先地位。特别是在资源受限的场景下，该模型在效率与效果之间实现了出色平衡，为追求轻量化部署的用户提供了一个强有力的选择。

面向企业服务：最快、最便宜
智谱的核心业务是为企业提供模型即服务（MaaS），重点在于服务。目前，智谱已有 1000 多个大模型规模化应用，覆盖传媒、咨询、消费、金融、新能源、互联网和智能办公等多个细分场景的头部企业。现在，基础模型和推理模型也已同步上线智谱 MaaS 开放平台，面向企业和开发者提供 API 服务，满足用户多快好省的需求。其中，推理模型有三个版本，针对不同业务场景需求。GLM-Z1-AirX（极速版）是国内最快的推理模型，速度可达 200 tokens/秒，比常规快 8 倍；适合高并发、极速响应业务场景。GLM-Z1-Air（高性价比版）价格仅为 DeepSeek-R1 的 1/30，适合高频调用场景；堪称国内最高性价比的推理模型。GLM-Z1-Flash（免费版）支持免费使用，进一步降低模型使用门槛。

全球用户：完整体验，免费享
对于希望完整体验模型能力的用户，即日起可通过 App 或网页端登录 z.ai，与最新的 GLM 模型免费对话。这里汇集了沉思模型、推理模型和对话模型，未来也将作为智谱最新模型的交互体验入口。为了对标 Open AI 的 Deep Research，我们简单体验了一下沉思模型的深度调研能力。例如输入问题：“既然卫生巾都塌房了，女性如何选择安全可信的卫生用品？”模型开始上网查找新闻、阅读报告，按照搞清事实、标准、辨别和选择的逻辑组织。几分钟后，自动生成一份详细指南。沉思模型更适合做深度调研，追求强大开发体验的用户不妨试试基础模型。例如：设计一个移动端机器学习平台的 UI，其中要包括训练任务、存储管理和个人统计界面。个人统计界面要用图表展示用户过去一段时间的各类资源使用情况。使用 Tailwind CSS 来美化页面，把这三个手机界面平铺展示到一个 HTML 页面中。不过，尝试用 svg 展示一只骑自行车的鸬鹚并未成功。快来体验吧！

本文来源：