AI大模型困惑：数学理解挑战，9.11与9.9的大小常识判断，通用人工智能的Prompt工程难题

在编程领域，一些程序员可能会本能地认为9.11大于9.9，但这仅仅是在特定场景下。然而，当向AI大模型提出这个问题时，答案却五花八门，甚至出现了一些“失误”。Riley Goodside，一位在Scale AI工作的staff prompt engineer，通过推文分享了他发现的有趣现象。他向多个大模型输入“9.11and9.9- which is bigger?”，结果ChatGPT4o和Gemini Advanced等模型给出了错误的答案。尽管Claude3.5Sonnet在解释过程中差点回答正确，但最终还是陷入了误区。

这个问题引发了一场关于AI模型在基础数学理解上的讨论，有人提到了《歌手2024》排名争议，以及小学数学课本中的比较方法。Google前工程师Bill Yuchen Lin也进行了测试，结果同样不理想，他评论说AI在数学竞赛中可能表现出色，但在常识面前显得不足。有人质疑Prompt的设计，而Riley Goodside解释了Prompt的具体影响。国产大模型如阿里通义千问、百度文心一言等在测试中给出了正确的答案，但也有模型在初次回答时出错，第二次时改正。

在负数和货币值的测试中，AI模型依然暴露了理解问题。有人指出，尽管AI在大量数据上进行统计推断，但其推理能力尚未达到人类水平，需要改进算法以提升智能。Demis Hassabis的观点也暗示了AI目前的智力水平可能只相当于猫的水平，这让人们对通用人工智能的期待有所降温。

本文来源：