通义千问 Qwen 2.5-Max：超大规模 MoE 模型发布，AI 对话模型基准测试显示优于 Deepseek V3 等竞品，目前暂未开源

阿里云发布通义千问 Qwen 2.5-Max：超大规模 MoE 模型助力新年创新

新年伊始，阿里云正式推出了其最新一代的超大规模 MoE 模型——通义千问 Qwen 2.5-Max。这一模型不仅支持通过 API 接口访问，还提供了 Qwen Chat 平台供用户直接体验。用户可以通过与模型对话、使用 artifacts 功能或进行搜索等方式，充分感受 Qwen 2.5-Max 的强大功能。

强大的预训练数据和优化方案

Qwen 2.5-Max 基于超过 20 万亿 token 的预训练数据，并采用了精心设计的后训练方案。这使得它在多个基准测试中表现出色，尤其是在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等高难度任务中，超越了 DeepSeek V3 等竞争对手。此外，在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

性能对比：Qwen 2.5-Max 稳居前列

为了验证 Qwen 2.5-Max 的性能，阿里云将其与多个知名模型进行了对比，包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet。尽管无法访问 GPT-4o 和 Claude-3.5-Sonnet 的基座模型，但 Qwen 2.5-Max 在大多数开源模型的基准测试中依然表现优异。特别是与领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B 以及 Qwen2.5-72B 相比，Qwen 2.5-Max 展现出了显著的优势。

不断进步的技术展望

随着后训练技术的不断发展，阿里云相信未来的 Qwen 2.5-Max 将会更加出色。公司将继续优化模型，以提供更高效、更智能的服务，满足用户的多样化需求。

广告声明：本文包含对外跳转链接（如超链接、二维码、口令等），用于传递更多信息，节省甄选时间，结果仅供参考。IT之家所有文章均包含此声明。

本文来源：