在编程领域,一些程序员可能会本能地认为9.11大于9.9,但这仅仅是在特定场景下。然而,当向AI大模型提出这个问题时,答案却五花八门,甚至出现了一些“失误”。Riley Goodside,一位在Scale AI工作的staff prompt engineer,通过推文分享了他发现的有趣现象。他向多个大模型输入“9.11and9.9- which is bigger?”,结果ChatGPT4o和Gemini Advanced等模型给出了错误的答案。尽管Claude3.5Sonnet在解释过程中差点回答正确,但最终还是陷入了误区。
这个问题引发了一场关于AI模型在基础数学理解上的讨论,有人提到了《歌手2024》排名争议,以及小学数学课本中的比较方法。Google前工程师Bill Yuchen Lin也进行了测试,结果同样不理想,他评论说AI在数学竞赛中可能表现出色,但在常识面前显得不足。有人质疑Prompt的设计,而Riley Goodside解释了Prompt的具体影响。国产大模型如阿里通义千问、百度文心一言等在测试中给出了正确的答案,但也有模型在初次回答时出错,第二次时改正。
在负数和货币值的测试中,AI模型依然暴露了理解问题。有人指出,尽管AI在大量数据上进行统计推断,但其推理能力尚未达到人类水平,需要改进算法以提升智能。Demis Hassabis的观点也暗示了AI目前的智力水平可能只相当于猫的水平,这让人们对通用人工智能的期待有所降温。
本文来源: CSDN公众号【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...