苹果公司最新发布的一篇论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》探讨了大型语言模型(LLM)在数学推理方面的局限性。这篇论文由苹果机器学习研究工程师 Iman Mirzadeh 主笔,Samy Bengio 等人共同完成。研究团队通过一系列实验发现,即使是当前最先进的 LLM,如 OpenAI 的 o1-preview,在面对稍微复杂的数学问题时,依然会出现明显的推理错误。
研究人员通过具体例子展示了这一现象。例如,当题目中包含无关紧要的细节时,模型往往会被误导。例如,题目描述奥利弗摘猕猴桃的数量,并加入了一些无关的信息,导致模型在计算时出错。这种现象不仅限于简单的数学问题,还包括涉及多个步骤的复杂问题。研究人员认为,这种错误的原因在于 LLM 无法进行真正的逻辑推理,而是依赖于训练数据中的模式匹配。
论文还介绍了 GSM-Symbolic 数据集,这是一种改进版的数学推理评估框架。通过生成多样化的数学问题变体,研究者能够更全面地评估 LLM 在不同条件下的表现。实验结果显示,即使是最好的模型,在面对不同的问题表述时,其性能波动也非常明显。此外,论文还引入了 GSM-NoOp 数据集,通过在问题中添加看似相关但无关紧要的信息,进一步验证了 LLM 的推理能力不足。
本文来源: 机器之心【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...