大模型 Benchmark挑战:GPT-4与Claude3遇挫,动物过河问题揭示推理能力劣效比率,LeCun盛赞新测试标准

在人工智能领域,一个新的挑战正在引起热议,那就是“大模型Benchmark”,它让GPT-4和Claude 3等先进模型纷纷败下阵来。这项测试源于逻辑学中的经典问题“动物过河”,模型们在解决此类问题时表现出显著的不足。网友们因此创造了一个名为“劣效比率”的指标,用来衡量模型解答的效率与实际最优解之间的差距。在测试中,GPT-4错误地认为需要五次运送,而Claude则提出了需要三次的不合理方案。即使面对无需运送的情况,模型依然坚持规划运输策略,显示出模型的推理能力可能受到训练数据的显著影响。此外,包括文心一言、通义千问在内的12款国产大模型也在该测试中全部失败,未能找出正确答案,揭示了当前大模型在推理工具方面的局限性。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...