标签:逻辑推理

苹果 AI 研究揭示:猕猴桃算术问题难倒 O1、Llama 等 20 多个顶级模型,逻辑推理能力受干扰项影响显著

11 月 2 日,据《洛杉矶时报》报道,苹果公司的研究团队对 20 个最先进的 AI 模型进行了测试,结果显示这些模型在处理包含干扰项的简单算术问题时表现不佳,甚至不如小学生。苹果团队设计了一道简单的算术题来测试这些 AI 模型,题目如下: Oliver 在星期五采摘了 44 个猕猴桃,星期六采摘了 58 个猕猴桃,星期日采摘的数量是星期五的两倍,但其中有 5 个猕猴桃比平均值要小。请问 Oliver 这三天共摘了多少个猕猴桃? 正确答案是 190 个,计算公式为:44(星期五)+ 58(星期六)+ 88(44 * 2,星期日)。然而,测试的 20 ...

OpenAI的大语言模型O1推理能力遭受质疑:GSM8K和逻辑推理测试揭示其脆弱性

就在一个月前,OpenAI悄然发布了o1,其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验,许多模型遇到这些问题时往往会不知所措,甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题,几乎所有的大模型都无法正确解答,然而o1却给出了完美的答案。在之前的文章中,我分享了OpenAI给出的最佳提示词写作方法,第一条就是:保持提示词简单直接。模型擅长理解和响应简单的指令,而不是复杂的指导。我认为这是为了让o1更好地理解需求,同时加快处理速度。 直到最近看到苹果发布的一篇关于大型语言模型(LLM)的研究...

探讨AGI与Scaling Law:马毅教授解析大语言模型对白盒CRATE架构的逻辑推理新视野——打造全球第二个OpenAI

马毅教授曾评论,顶尖CS毕业生不应局限于大语言模型,而应寻求创新。OpenAI的Sora展示了新毕业生的潜力。马毅认为大语言模型不是通往AGI的终点,而ChatGPT引领了AI 2.0时代,使AI智能通用性显现。AGI成为可实现的目标,Scaling Law成为实现AGI的原理,即增加数据、参数和算力以提升模型性能。然而,这种资源投入可能导致模型性能提升的局限性,如逻辑推理和数理能力的缺乏。马毅团队通过白盒CRATE架构研究,揭示Transformer模型的本质是数据压缩,认为目前技术无法达到人类智能水平。白盒架构能更高效、有针对性地发展模型,...

最新中文大模型测评:百川智能 Baichuan 3 国内第一

在最新的《中文大模型基准测评 2024 年度 4 月报告》中,SuperCLUE 评测机构对国内外32个知名大模型进行了全面评估。这份报告揭示了百川智能的 Baichuan 3 在国内大模型中占据领先地位,紧随其后的是智谱 GLM-4、通义千问 2.1、文心一言 4.0和 Moonshot (Kimi)。尽管如此,国际上的GPT-4和Claude3在测评中表现出更高的得分。 SuperCLUE 不仅局限于传统的选择题形式,还引入了开放性问题的测评,以模拟实际应用中的大模型场景。通过多轮对话的设定,深入评估模型的上下文理解、记忆和对话能力。本次测评涵盖了逻辑推理、代码...