标签：SWE-bench verified

谷歌Gemini大模型在AI编程领域全面屠榜，称霸大模型竞技场！SWE-bench verified认证，Humanitas Last Exam成绩超越OpenAI，免费体验最强推理模型

第一段智东西（公众号：zhidxcom）作者 | 陈骏达编辑 | 心缘智东西3月26日报道，谷歌正式推出了Gemini 2.5思考模型家族的首个成员——Gemini 2.5 Pro实验版本。这款模型在多项基准测试中全面超越了OpenAI o3-mini、Claude 3.7 Sonnet、Grok-3和DeepSeek-R1等竞争对手，并在大模型竞技场获得了1443分，以39分的优势稳居榜首。然而，谷歌并未公开Gemini 2.5 Pro与OpenAI o1、o1-Pro和o3等模型的对比数据。此外，在SWE-bench verified编程评估基准上，其得分略低于Claude 3.7 Sonnet。第二段 Gemini 2.5 Pro不仅在...

来源：

智东西【阅读原文】
Tags：AI编程 Humanitas Last Exam SWE-bench verified 大模型竞技场谷歌Gemini

6天前