标签：Benchmark

大模型 Benchmark挑战：GPT-4与Claude3遇挫，动物过河问题揭示推理能力劣效比率，LeCun盛赞新测试标准

在人工智能领域，一个新的挑战正在引起热议，那就是“大模型Benchmark”，它让GPT-4和Claude 3等先进模型纷纷败下阵来。这项测试源于逻辑学中的经典问题“动物过河”，模型们在解决此类问题时表现出显著的不足。网友们因此创造了一个名为“劣效比率”的指标，用来衡量模型解答的效率与实际最优解之间的差距。在测试中，GPT-4错误地认为需要五次运送，而Claude则提出了需要三次的不合理方案。即使面对无需运送的情况，模型依然坚持规划运输策略，显示出模型的推理能力可能受到训练数据的显著影响。此外，包括文心一言、通义千问在内...

来源：

量子位【阅读原文】
Tags：Benchmark 劣效比率动物过河问题大模型推理能力

9个月前