标签:大模型竞技场

谷歌Gemini大模型在AI编程领域全面屠榜,称霸大模型竞技场!SWE-bench verified认证,Humanitas Last Exam成绩超越OpenAI,免费体验最强推理模型

第一段 智东西(公众号:zhidxcom) 作者 | 陈骏达 编辑 | 心缘 智东西3月26日报道,谷歌正式推出了Gemini 2.5思考模型家族的首个成员——Gemini 2.5 Pro实验版本。这款模型在多项基准测试中全面超越了OpenAI o3-mini、Claude 3.7 Sonnet、Grok-3和DeepSeek-R1等竞争对手,并在大模型竞技场获得了1443分,以39分的优势稳居榜首。然而,谷歌并未公开Gemini 2.5 Pro与OpenAI o1、o1-Pro和o3等模型的对比数据。此外,在SWE-bench verified编程评估基准上,其得分略低于Claude 3.7 Sonnet。 第二段 Gemini 2.5 Pro不仅在...

国产大模型 Yi-Lightning 在大模型竞技场崭露头角,零一万物与李开复共创新辉煌

近日,国产大模型在国际舞台上取得了令人瞩目的成就。在最新的大模型竞技场(Chatbot Arena)榜单中,国产大模型首次超越了GPT-4o,标志着中国在人工智能领域的显著进步。 零一万物作为“大模型六小强”之一,发布了其最新旗舰模型Yi-Lightning(闪电)。这款模型在多项测试中表现出色,不仅在总榜单上位列第六,在数学分榜上更是与GPT-4o-2024-05-13等顶级模型并驾齐驱。此外,Yi-Lightning在代码和其他分榜上也名列前茅,整体表现几乎与马斯克的最新xAI大模型Grok-2-08-13持平。 与此同时,清华大学旗下的智谱AI也推出了其...