标签:Claude 3.5

Claude 3.5硬核实测:AI自主操控Paperclip Clicker游戏,惊呆教授,万智牌与自动化编码新突破

Claude 游戏测试评分:AI 在毁灭人类游戏中的表现如何? 在一场持续一个多小时的“毁灭人类”游戏中,Claude 展现了其制定长期策略的能力,令人惊喜。然而,这也暴露出了一些 AI 的短板。如果将电脑的控制权完全交给 AI,会发生什么呢?Anthropic 最近展示了 Claude 3.5 在自动编写网站、填写数据表和点外卖方面的强大功能。那么,Claude 打游戏的表现如何呢?让我们来看看进化版的 Claude 3.5 是如何应对游戏挑战的。 策略明智,但也犯低级错误 这款游戏名为《Paperclip Clicker》(回形针点击器),玩家需要通过制造回形...

菲尔兹奖得主挑战GPT-4:过河问题解答受挫,LLM能力遭LeCun质疑,Claude 3.5推理表现令人咋舌

菲尔兹奖得主Timothy Gowers最近测试了大模型如GPT-4o和Claude3.5解决经典“狼-山羊-卷心菜”过河问题的能力,结果表明这些大模型在该问题上表现不佳。 Gowers提出了一个新的评估标准——废话比率,即模型给出的错误答案与正确答案的比例。在简单的过河问题上,大模型的废话比率甚至高达5倍。在更复杂的100和1000只鸡过河问题中,尽管GPT-4o在100只鸡问题上答对了,但在1000只鸡问题上表现出严重错误,废话比率达到了125倍。测试显示,即使在被告知无需过河的情况下,模型仍然给出了复杂的解决方案。而Claude3.5在类似问题上也...