AI模型遭遇常识挑战：数字比较出错，9.11与9.9大小分辨，tokenizer与角色扮演提示揭示问题所在

在人工智能的世界里，即使是最新最先进的模型也可能面临尴尬的挑战。近期，一些顶级大模型在面对“9.11 和 9.9 哪个大”的简单问题时，竟然给出了错误的答案。GPT-4o 和谷歌的 Gemini Advanced 付费版都认为 9.11 更大，而 Claude 3.5 Sonnet 提供了荒谬的计算方法。这个问题揭示了尽管AI在复杂数学问题上的能力日益增强，但在基本常识方面仍有不足。

一位名叫 Riley Goodside 的提示词工程师发现了这个问题，他在测试 GPT-4o 时发现模型错误地认为 9.11 更大。当他尝试改变提问方式或限定为实数比较时，结果并未改善。有趣的是，当数字顺序改变时，某些AI能够正确回答。这一现象引发了对AI理解问题方式的探讨，可能是由于模型以 token 方式解析文字，导致在处理像“9.11”这样的数字时产生误解。

在测试中，国内的一些大模型如 Kimi 和 ChatGLM 也出现了错误，但腾讯元宝和字节豆包表现较好，能够正确解答。然而，文心一言在初段正确后，最后却转向了错误答案。问题在于，当9.11被拆解为“9”、“小数点”和“11”时，模型可能错误地认为11大于9。通过调整tokenizer和自注意力机制，AI可以在特定条件下理解问题并给出正确答案。

这一事件提醒我们，虽然AI技术不断进步，但在基础逻辑和语境理解方面仍有待加强。此外，研究发现角色扮演提示在引导大模型理解问题上的效果可能减弱。同时，OpenAI 的新模型在 MATH 数据集上的高得分让人期待，但是否能正确处理此类基础问题仍需观察。

本文来源：