标签：Claude 3.5

Claude 3.5硬核实测：AI自主操控Paperclip Clicker游戏，惊呆教授，万智牌与自动化编码新突破

Claude 游戏测试评分：AI 在毁灭人类游戏中的表现如何？在一场持续一个多小时的“毁灭人类”游戏中，Claude 展现了其制定长期策略的能力，令人惊喜。然而，这也暴露出了一些 AI 的短板。如果将电脑的控制权完全交给 AI，会发生什么呢？Anthropic 最近展示了 Claude 3.5 在自动编写网站、填写数据表和点外卖方面的强大功能。那么，Claude 打游戏的表现如何呢？让我们来看看进化版的 Claude 3.5 是如何应对游戏挑战的。策略明智，但也犯低级错误这款游戏名为《Paperclip Clicker》（回形针点击器），玩家需要通过制造回形...

来源：

新智元公众号【阅读原文】
Tags：- AI 游戏测试 - Paperclip Clicker - 万智牌 - 自动化编码 Claude 3.5

5个月前

菲尔兹奖得主挑战GPT-4：过河问题解答受挫，LLM能力遭LeCun质疑，Claude 3.5推理表现令人咋舌

菲尔兹奖得主Timothy Gowers最近测试了大模型如GPT-4o和Claude3.5解决经典“狼-山羊-卷心菜”过河问题的能力，结果表明这些大模型在该问题上表现不佳。 Gowers提出了一个新的评估标准——废话比率，即模型给出的错误答案与正确答案的比例。在简单的过河问题上，大模型的废话比率甚至高达5倍。在更复杂的100和1000只鸡过河问题中，尽管GPT-4o在100只鸡问题上答对了，但在1000只鸡问题上表现出严重错误，废话比率达到了125倍。测试显示，即使在被告知无需过河的情况下，模型仍然给出了复杂的解决方案。而Claude3.5在类似问题上也...

来源：

新智元公众号【阅读原文】 Tags：Claude 3.5 GPT-4o

9个月前