苹果新论文揭示大型语言模型的逻辑推理能力局限：GSM-Symbolic与数学题挑战

苹果公司最新发布的一篇论文《GSM-Symbolic： Understanding the Limitations of Mathematical Reasoning in Large Language Models》探讨了大型语言模型（LLM）在数学推理方面的局限性。这篇论文由苹果机器学习研究工程师 Iman Mirzadeh 主笔，Samy Bengio 等人共同完成。研究团队通过一系列实验发现，即使是当前最先进的 LLM，如 OpenAI 的 o1-preview，在面对稍微复杂的数学问题时，依然会出现明显的推理错误。

研究人员通过具体例子展示了这一现象。例如，当题目中包含无关紧要的细节时，模型往往会被误导。例如，题目描述奥利弗摘猕猴桃的数量，并加入了一些无关的信息，导致模型在计算时出错。这种现象不仅限于简单的数学问题，还包括涉及多个步骤的复杂问题。研究人员认为，这种错误的原因在于 LLM 无法进行真正的逻辑推理，而是依赖于训练数据中的模式匹配。

论文还介绍了 GSM-Symbolic 数据集，这是一种改进版的数学推理评估框架。通过生成多样化的数学问题变体，研究者能够更全面地评估 LLM 在不同条件下的表现。实验结果显示，即使是最好的模型，在面对不同的问题表述时，其性能波动也非常明显。此外，论文还引入了 GSM-NoOp 数据集，通过在问题中添加看似相关但无关紧要的信息，进一步验证了 LLM 的推理能力不足。

本文来源：