AI模型遭遇常识挑战:数字比较出错,9.11与9.9大小分辨,tokenizer与角色扮演提示揭示问题所在

在人工智能的世界里,即使是最新最先进的模型也可能面临尴尬的挑战。近期,一些顶级大模型在面对“9.11 和 9.9 哪个大”的简单问题时,竟然给出了错误的答案。GPT-4o 和谷歌的 Gemini Advanced 付费版都认为 9.11 更大,而 Claude 3.5 Sonnet 提供了荒谬的计算方法。这个问题揭示了尽管AI在复杂数学问题上的能力日益增强,但在基本常识方面仍有不足。

一位名叫 Riley Goodside 的提示词工程师发现了这个问题,他在测试 GPT-4o 时发现模型错误地认为 9.11 更大。当他尝试改变提问方式或限定为实数比较时,结果并未改善。有趣的是,当数字顺序改变时,某些AI能够正确回答。这一现象引发了对AI理解问题方式的探讨,可能是由于模型以 token 方式解析文字,导致在处理像“9.11”这样的数字时产生误解。

在测试中,国内的一些大模型如 Kimi 和 ChatGLM 也出现了错误,但腾讯元宝和字节豆包表现较好,能够正确解答。然而,文心一言在初段正确后,最后却转向了错误答案。问题在于,当9.11被拆解为“9”、“小数点”和“11”时,模型可能错误地认为11大于9。通过调整tokenizer和自注意力机制,AI可以在特定条件下理解问题并给出正确答案。

这一事件提醒我们,虽然AI技术不断进步,但在基础逻辑和语境理解方面仍有待加强。此外,研究发现角色扮演提示在引导大模型理解问题上的效果可能减弱。同时,OpenAI 的新模型在 MATH 数据集上的高得分让人期待,但是否能正确处理此类基础问题仍需观察。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...