【PlanBench 实测报告:OpenAI o1 规划能力卓越,准确率高达 97.8%,显著超越 LLaMA 3.1 405B 在 Blocksworld 中创造的 62.6% 纪录】

IT之家报道,亚利桑那州立大学的研究团队利用 PlanBench 基准测试了 OpenAI 的 o1 模型在规划任务上的表现。结果显示,尽管 o1 模型取得了显著进展,但仍存在一些局限性。

PlanBench 基准简介

PlanBench 是在 2022 年开发的一种基准工具,用于评估人工智能系统的规划能力。它包含了来自 Blocksworld 领域的 600 个任务,其中积木需要按照特定顺序堆叠。通过这些任务,可以全面评估模型的规划性能。

OpenAI o1 模型的成绩

在 Blocksworld 任务中,OpenAI 的 o1 模型表现出色,准确率达到了 97.8%,远高于之前最好的语言模型 LLaMA 3.1 405B(准确率为 62.6%)。而在更具挑战性的“Mystery Blocksworld”加密版本中,其他模型几乎全部失败,但 o1 模型的准确率仍达到 52.8%。

为了进一步验证 o1 模型的表现,研究人员还测试了一种新的随机变体,以确保其性能不是由于训练集中的基准数据。在这种测试下,o1 模型的准确率降至 37.3%,但仍远超其他模型。

规划步骤越多,性能下降越明显

随着任务变得越来越复杂,o1 模型的表现也开始下降。在需要 20 到 40 个规划步骤的问题上,o1 在较简单测试中的准确率从 97.8% 下降到只有 23.63%。此外,该模型在识别无法解决的任务方面也存在困难,只有 27% 的时间能够正确识别。在 54% 的情况下,它错误地生成了完整但无法完成的计划。

“量子改进”,但非突破性

尽管 o1 在基准测试中实现了“量子改进”,但它并不能保证解决方案的正确性。例如,传统的快速向下算法等经典规划算法可以在更短的时间内实现完美的准确性。此外,研究还指出 o1 模型的高资源消耗问题,运行这些测试需要花费近 1900 美元,而经典算法在标准计算机上运行几乎不消耗任何资源。

研究人员强调,在评估人工智能系统时,应综合考虑准确性、效率、成本和可靠性。研究结果表明,虽然 o1 模型在复杂推理任务上取得了进步,但其能力仍有待提升。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...