菲尔兹奖得主Timothy Gowers最近测试了大模型如GPT-4o和Claude3.5解决经典“狼-山羊-卷心菜”过河问题的能力,结果表明这些大模型在该问题上表现不佳。
Gowers提出了一个新的评估标准——废话比率,即模型给出的错误答案与正确答案的比例。在简单的过河问题上,大模型的废话比率甚至高达5倍。在更复杂的100和1000只鸡过河问题中,尽管GPT-4o在100只鸡问题上答对了,但在1000只鸡问题上表现出严重错误,废话比率达到了125倍。测试显示,即使在被告知无需过河的情况下,模型仍然给出了复杂的解决方案。而Claude3.5在类似问题上也表现欠佳,无法正确解决。专家指出,大模型缺乏常识、无法理解和规划现实世界,依赖提示,且可能因过度训练而出现问题。目前,LLM的评估方法和训练数据可能需要改进,以提高它们在非语言任务中的推理能力。
本文来源: 新智元公众号【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...