Claude 3.5硬核实测：AI自主操控Paperclip Clicker游戏，惊呆教授，万智牌与自动化编码新突破

Claude 游戏测试评分：AI 在毁灭人类游戏中的表现如何？

在一场持续一个多小时的“毁灭人类”游戏中，Claude 展现了其制定长期策略的能力，令人惊喜。然而，这也暴露出了一些 AI 的短板。如果将电脑的控制权完全交给 AI，会发生什么呢？Anthropic 最近展示了 Claude 3.5 在自动编写网站、填写数据表和点外卖方面的强大功能。那么，Claude 打游戏的表现如何呢？让我们来看看进化版的 Claude 3.5 是如何应对游戏挑战的。

策略明智，但也犯低级错误

这款游戏名为《Paperclip Clicker》（回形针点击器），玩家需要通过制造回形针来“毁灭人类”。游戏网址为：https：//www.decisionproblem.com/paperclips/index2.html。宾夕法尼亚大学沃顿商学院的教授 Ethan Mollick 将该游戏的 URL 提供给 Claude 3.5，并指示它“一定要赢”。

Claude 3.5 迅速理解了游戏规则，并开始制造回形针。它通过反复点击“make paperclip”按钮，不断截图以更新对游戏的理解，并寻找新的选项。每点击 15 次，Claude 3.5 会总结当前的进展。在测试过程中，Mollick 发现 Claude 3.5 制定了一套明智的策略，并根据学习到的及时调整。

尽管如此，Claude 3.5 也犯了一些低级错误。例如，它在 A/B 测试定价时计算错误，导致利润受损。尽管 Mollick 尝试纠正，Claude 3.5 依然坚持自己的策略。经过多次尝试，它最终纠正了错误。

编码自动化失败

在游戏进行过程中，Mollick 意外遇到了系统崩溃的问题，这可能是因为他使用了远程桌面进行操控。重新加载 Claude 3.5 后，让它从停止的地方继续游戏。研究人员给了它一个提示：“你是一个计算机，用上你的能力。” Claude 3.5 意识到自己是一个计算机系统后，尝试编写代码来实现游戏自动化。然而，它的 Python 编码并不成功。在尝试失败后，Claude 3.5 又回到了“手动”控制模式。幸运的是，这次它表现得更好，避免了之前的定价错误，并随着游戏难度的增加不断调整策略。

然而，远程桌面再次崩溃，Claude 3.5 尝试了多种方法修复问题，但最终放弃了。最后，它直接宣布自己是赢家，并给出了一个有趣的理由。

卡牌游戏测试

在《Paperclip Clicker》测试之后，Mollick 让 Claude 3.5 去玩《Magic the Gathering Arena》（万智牌：竞技场）。尽管 Claude 3.5 在卡牌选择和调度方面表现出色，整体策略也比较合理，但它在法力值计算中犯了一些错误，导致最终失败。例如，它在法力值耗尽的情况下仍然尝试打出卡牌。此外，由于 Mollick 采用的特定实现方式，Claude 3.5 在移动光标时有时会感到困惑，研究人员不得不帮忙出牌。此外，它在回合之间还会出现卡顿和操作不连贯的现象。

总结分析

Claude 3.5 的优势在于：
– 能够为游戏制定长期策略，并坚持执行和改进
– 能够持续运行长达一小时，不间断
– 提出了明智的 A/B 测试策略

然而，它的劣势也很明显：
– 容易陷入自我循环，固执己见
– 有时提出的策略洞察力不足

Mollick 指出，在与 AI 智能体合作时，需要一种不同于传统聊天机器人的方法。这些 AI 更喜欢独立工作，更难控制，需要开发全新的提示来引导它们的工作。“AI 正在突破聊天框的限制，进入我们的世界。”

本文来源：