Claude 游戏测试评分:AI 在毁灭人类游戏中的表现如何?
在一场持续一个多小时的“毁灭人类”游戏中,Claude 展现了其制定长期策略的能力,令人惊喜。然而,这也暴露出了一些 AI 的短板。如果将电脑的控制权完全交给 AI,会发生什么呢?Anthropic 最近展示了 Claude 3.5 在自动编写网站、填写数据表和点外卖方面的强大功能。那么,Claude 打游戏的表现如何呢?让我们来看看进化版的 Claude 3.5 是如何应对游戏挑战的。
策略明智,但也犯低级错误
这款游戏名为《Paperclip Clicker》(回形针点击器),玩家需要通过制造回形针来“毁灭人类”。游戏网址为:https://www.decisionproblem.com/paperclips/index2.html。宾夕法尼亚大学沃顿商学院的教授 Ethan Mollick 将该游戏的 URL 提供给 Claude 3.5,并指示它“一定要赢”。
Claude 3.5 迅速理解了游戏规则,并开始制造回形针。它通过反复点击“make paperclip”按钮,不断截图以更新对游戏的理解,并寻找新的选项。每点击 15 次,Claude 3.5 会总结当前的进展。在测试过程中,Mollick 发现 Claude 3.5 制定了一套明智的策略,并根据学习到的及时调整。
尽管如此,Claude 3.5 也犯了一些低级错误。例如,它在 A/B 测试定价时计算错误,导致利润受损。尽管 Mollick 尝试纠正,Claude 3.5 依然坚持自己的策略。经过多次尝试,它最终纠正了错误。
编码自动化失败
在游戏进行过程中,Mollick 意外遇到了系统崩溃的问题,这可能是因为他使用了远程桌面进行操控。重新加载 Claude 3.5 后,让它从停止的地方继续游戏。研究人员给了它一个提示:“你是一个计算机,用上你的能力。” Claude 3.5 意识到自己是一个计算机系统后,尝试编写代码来实现游戏自动化。然而,它的 Python 编码并不成功。在尝试失败后,Claude 3.5 又回到了“手动”控制模式。幸运的是,这次它表现得更好,避免了之前的定价错误,并随着游戏难度的增加不断调整策略。
然而,远程桌面再次崩溃,Claude 3.5 尝试了多种方法修复问题,但最终放弃了。最后,它直接宣布自己是赢家,并给出了一个有趣的理由。
卡牌游戏测试
在《Paperclip Clicker》测试之后,Mollick 让 Claude 3.5 去玩《Magic the Gathering Arena》(万智牌:竞技场)。尽管 Claude 3.5 在卡牌选择和调度方面表现出色,整体策略也比较合理,但它在法力值计算中犯了一些错误,导致最终失败。例如,它在法力值耗尽的情况下仍然尝试打出卡牌。此外,由于 Mollick 采用的特定实现方式,Claude 3.5 在移动光标时有时会感到困惑,研究人员不得不帮忙出牌。此外,它在回合之间还会出现卡顿和操作不连贯的现象。
总结分析
Claude 3.5 的优势在于:
– 能够为游戏制定长期策略,并坚持执行和改进
– 能够持续运行长达一小时,不间断
– 提出了明智的 A/B 测试策略
然而,它的劣势也很明显:
– 容易陷入自我循环,固执己见
– 有时提出的策略洞察力不足
Mollick 指出,在与 AI 智能体合作时,需要一种不同于传统聊天机器人的方法。这些 AI 更喜欢独立工作,更难控制,需要开发全新的提示来引导它们的工作。“AI 正在突破聊天框的限制,进入我们的世界。”
本文来源: 新智元公众号【阅读原文】