标签:长度泛化

多位数乘法,大模型数学能力的现状与挑战

传统的大规模语言模型(LLM)在数学计算方面表现不佳,尤其是面对简单的多位数乘法时,常常出现错误。然而,随着推理模型如o1、o3和DeepSeek-R1的推出,情况正在逐渐改善。例如,DeepSeek-R1在AIME 2024竞赛中取得了79.8%的准确率,而OpenAI发布的o3-mini (high)更是达到了87.3%的准确度。尽管如此,这些模型在处理多位数乘法时仍然存在显著的局限性。 实验结果:多位数乘法的挑战 滑铁卢大学助理教授邓云天通过实验发现,即使是较为先进的模型如o1,在处理超过9x9的乘法时,准确度明显下降。GPT-4o则在4x4乘法时就遇到了困...