在人工智能领域,一个新的挑战正在引起热议,那就是“大模型Benchmark”,它让GPT-4和Claude 3等先进模型纷纷败下阵来。这项测试源于逻辑学中的经典问题“动物过河”,模型们在解决此类问题时表现出显著的不足。网友们因此创造了一个名为“劣效比率”的指标,用来衡量模型解答的效率与实际最优解之间的差距。在测试中,GPT-4错误地认为需要五次运送,而Claude则提出了需要三次的不合理方案。即使面对无需运送的情况,模型依然坚持规划运输策略,显示出模型的推理能力可能受到训练数据的显著影响。此外,包括文心一言、通义千问在内的12款国产大模型也在该测试中全部失败,未能找出正确答案,揭示了当前大模型在推理工具方面的局限性。
本文来源: 量子位【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...