标签:数学推理

苹果新论文揭示大型语言模型的逻辑推理能力局限:GSM-Symbolic与数学题挑战

苹果公司最新发布的一篇论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》探讨了大型语言模型(LLM)在数学推理方面的局限性。这篇论文由苹果机器学习研究工程师 Iman Mirzadeh 主笔,Samy Bengio 等人共同完成。研究团队通过一系列实验发现,即使是当前最先进的 LLM,如 OpenAI 的 o1-preview,在面对稍微复杂的数学问题时,依然会出现明显的推理错误。 研究人员通过具体例子展示了这一现象。例如,当题目中包含无关紧要的细节时,模型往往会被误导。例如,题目...

OpenAI O1模型在LMSYS竞技场全面登顶,编码能力和数学推理超越Claude及谷歌模型,O1-mini表现同样卓越

OpenAI O1 模型在 LMSYS 竞技场的卓越表现 最近,OpenAI 发布的新模型 O1 在 LMSYS 竞技场的评测中取得了令人瞩目的成绩。O1 预览版(O1-preview)凭借其出色的性能,在多个领域稳居榜首,超越了最新的 GPT-4 版本。特别是在数学、复杂提示处理和编码领域,O1-preview 表现尤为突出。 O1-mini 虽然名称中有“mini”,但其综合排名与最新版 GPT-4 并列第二,同样在多个领域名列前茅。这一结果充分展示了 O1 模型在通用推理领域的强大实力。LMSYS 社区对此评价极高,称其为“难以置信的里程碑”。 详细评测数据 为了更直观地...

阿里巴巴开源新模型Qwen2-Math:人工智能领域的数学推理专家,超越GPT-4o,数学能力全球领先!

阿里巴巴发布Qwen2-Math:数学推理领域的全新突破 近期,阿里巴巴宣布开源了一款名为Qwen2-Math的强大数学模型,此模型旨在为数学推理领域带来革命性的进展。Qwen2-Math提供基础和指令微调两个版本,并包含了1.5B、7B和72B三种不同规模的参数配置。经过主流数学基准测试验证,Qwen2-Math-72B指令微调版展现出了超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro等知名闭源模型的卓越性能,甚至在与Meta的Llama-3.1-405B模型的竞争中也占据优势。这一成就确立了Qwen2-Math-72B在全球数学推理领域的领先地位。 基础模型的深度...