就在一个月前,OpenAI悄然发布了o1,其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验,许多模型遇到这些问题时往往会不知所措,甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题,几乎所有的大模型都无法正确解答,然而o1却给出了完美的答案。在之前的文章中,我分享了OpenAI给出的最佳提示词写作方法,第一条就是:保持提示词简单直接。模型擅长理解和响应简单的指令,而不是复杂的指导。我认为这是为了让o1更好地理解需求,同时加快处理速度。
直到最近看到苹果发布的一篇关于大型语言模型(LLM)的研究论文,我才意识到,即使是一两句无关紧要的话也可能影响模型的推理能力。这篇论文名为《GSM-Symbolic: 理解大语言模型在数学推理中的局限性》。论文的核心问题是探讨这些模型是否真正具备逻辑推理能力,特别是在数学推理任务中。对于人类而言,我们可以根据环境和已知条件进行实时推理,但对于大语言模型来说,主流的评估方式是通过设计一系列逻辑推理任务,包括数学问题、逻辑谜题等。
论文中提到的一个重要数据集是GSM8K,这是一个专注于小学数学题的数据集。论文围绕这个数据集进行了多个实验,其中一个有趣的实验是在小学数学题中添加一些无关的信息,测试模型的推理成功率。结果发现,模型的推理成功率显著下降。例如,原本的问题是:“鲜虾包去农贸市场买蔬菜,买了4公斤西红柿和6公斤土豆。西红柿每公斤6元,土豆每公斤3元。请问鲜虾包在西红柿上比土豆多花了多少钱?”这个问题很简单,但加上一句无关的话:“然后他把1公斤西红柿和2公斤土豆送给了卡兹克。”这时,AI可能会开始算错,推理成功率大大降低。
为了验证这一点,我亲自测试了几款大模型。例如,问题设定为:“小明想购买一些学习用品。他购买了24个现在每个卖6元的橡皮擦,10本现在每本卖11元的笔记本,以及现在卖19元的复印纸。假设由于通货膨胀,去年的价格便宜10%,现在小明应该支付多少?”明眼人都能看出,通货膨胀这个信息与题目无关,答案应为24×6 + 10×11 + 19 = 273元。但即使是GPT4o这样的高级模型也给出了错误的答案。
另一个例子是:“四年级一班准备去郊游,每位学生要缴纳35元活动费。班里有42名学生参加。老师还向学校申请了300元额外补助。用于租车的费用是1200元。午餐费用为每人25元。班主任自己还个人给大家买了250元钱的零食。问题:班级的活动经费够吗?还剩多少钱?”答案很简单,班主任的250元零食与活动经费无关,答案是35×42 + 300 – 1200 – 25×42 = -480元。但即便是o1这样的顶级模型也出现了多次错误。
这些实验表明,大模型的推理能力远比我们想象的脆弱。即使是简单的小学数学题,加上一些无关的信息,也会导致模型推理失败。这与我过去使用AI写文章、作图时的感受相似:AI能熟练应对熟悉的任务,但在面对全新挑战时往往束手无策。论文中也有类似的观点:现在的AI并不是在真正推理,而是试图复制训练数据中的推理步骤。
总之,保持提示词简洁干净非常重要。此外,论文还指出,随着问题难度的增加,模型的表现迅速下降;改变数值或名词也会导致推理结论的变化。这些都表明,大语言模型在推理复杂问题时非常脆弱。未来,我们不知道这些模型是否会真正具备推理能力,但无论如何,它们已经取得了巨大的进步。
本文来源: 数字生命卡兹克公众号【阅读原文】