OpenAI的大语言模型O1推理能力遭受质疑：GSM8K和逻辑推理测试揭示其脆弱性

就在一个月前，OpenAI悄然发布了o1，其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验，许多模型遇到这些问题时往往会不知所措，甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题，几乎所有的大模型都无法正确解答，然而o1却给出了完美的答案。在之前的文章中，我分享了OpenAI给出的最佳提示词写作方法，第一条就是：保持提示词简单直接。模型擅长理解和响应简单的指令，而不是复杂的指导。我认为这是为了让o1更好地理解需求，同时加快处理速度。

直到最近看到苹果发布的一篇关于大型语言模型（LLM）的研究论文，我才意识到，即使是一两句无关紧要的话也可能影响模型的推理能力。这篇论文名为《GSM-Symbolic：理解大语言模型在数学推理中的局限性》。论文的核心问题是探讨这些模型是否真正具备逻辑推理能力，特别是在数学推理任务中。对于人类而言，我们可以根据环境和已知条件进行实时推理，但对于大语言模型来说，主流的评估方式是通过设计一系列逻辑推理任务，包括数学问题、逻辑谜题等。

论文中提到的一个重要数据集是GSM8K，这是一个专注于小学数学题的数据集。论文围绕这个数据集进行了多个实验，其中一个有趣的实验是在小学数学题中添加一些无关的信息，测试模型的推理成功率。结果发现，模型的推理成功率显著下降。例如，原本的问题是：“鲜虾包去农贸市场买蔬菜，买了4公斤西红柿和6公斤土豆。西红柿每公斤6元，土豆每公斤3元。请问鲜虾包在西红柿上比土豆多花了多少钱？”这个问题很简单，但加上一句无关的话：“然后他把1公斤西红柿和2公斤土豆送给了卡兹克。”这时，AI可能会开始算错，推理成功率大大降低。

为了验证这一点，我亲自测试了几款大模型。例如，问题设定为：“小明想购买一些学习用品。他购买了24个现在每个卖6元的橡皮擦，10本现在每本卖11元的笔记本，以及现在卖19元的复印纸。假设由于通货膨胀，去年的价格便宜10%，现在小明应该支付多少？”明眼人都能看出，通货膨胀这个信息与题目无关，答案应为24×6 + 10×11 + 19 = 273元。但即使是GPT4o这样的高级模型也给出了错误的答案。

另一个例子是：“四年级一班准备去郊游，每位学生要缴纳35元活动费。班里有42名学生参加。老师还向学校申请了300元额外补助。用于租车的费用是1200元。午餐费用为每人25元。班主任自己还个人给大家买了250元钱的零食。问题：班级的活动经费够吗？还剩多少钱？”答案很简单，班主任的250元零食与活动经费无关，答案是35×42 + 300 – 1200 – 25×42 = -480元。但即便是o1这样的顶级模型也出现了多次错误。

这些实验表明，大模型的推理能力远比我们想象的脆弱。即使是简单的小学数学题，加上一些无关的信息，也会导致模型推理失败。这与我过去使用AI写文章、作图时的感受相似：AI能熟练应对熟悉的任务，但在面对全新挑战时往往束手无策。论文中也有类似的观点：现在的AI并不是在真正推理，而是试图复制训练数据中的推理步骤。

总之，保持提示词简洁干净非常重要。此外，论文还指出，随着问题难度的增加，模型的表现迅速下降；改变数值或名词也会导致推理结论的变化。这些都表明，大语言模型在推理复杂问题时非常脆弱。未来，我们不知道这些模型是否会真正具备推理能力，但无论如何，它们已经取得了巨大的进步。

本文来源：