标签:推理能力

OpenAI的大语言模型O1推理能力遭受质疑:GSM8K和逻辑推理测试揭示其脆弱性

就在一个月前,OpenAI悄然发布了o1,其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验,许多模型遇到这些问题时往往会不知所措,甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题,几乎所有的大模型都无法正确解答,然而o1却给出了完美的答案。在之前的文章中,我分享了OpenAI给出的最佳提示词写作方法,第一条就是:保持提示词简单直接。模型擅长理解和响应简单的指令,而不是复杂的指导。我认为这是为了让o1更好地理解需求,同时加快处理速度。 直到最近看到苹果发布的一篇关于大型语言模型(LLM)的研究...

【OpenAI推出全新O1模型:推理能力飞跃提升,STEM领域达博士生水平,超越GPT-4,ChatGPT应用更广泛】

近日,OpenAI发布了备受期待的全新AI模型——o1预览版。这款模型在复杂的推理任务中表现出色,能够解决比以往更难的问题,特别是在科学、编程和数学等领域。 一、o1模型的强大推理能力 o1模型展示了卓越的推理能力,能够在回答问题前进行深入思考,并生成一系列内部思维链。在多项基准测试中,o1的表现远超之前的模型。例如,在美国数学奥林匹克预选资格赛中,o1的排名进入前500名;在物理、生物、化学问题的测试中,其准确度甚至超过了人类博士水平。 此外,o1 mini是一款更小巧、更快速的模型,专为数学和编程任务设计,...

OpenAI“草莓”推理大模型两周内就要上架

随着全球人工智能领域的快速发展,OpenAI 作为行业的领头羊之一,即将推出一款备受期待的新产品。据《信息报》报道,该公司将在未来两周内推出名为“草莓”的全新 AI 模型,并将其整合到 ChatGPT 服务中。这款新模型主打推理能力,旨在解决更为复杂的多步骤问题。 据报道,“草莓”模型在面对复杂的多步骤问题时表现得更加出色。与 GPT-4 相比,用户无需手动输入详细的“思考链提示词”,“草莓”便能自动完成推理过程,并给出更为精准的答案。例如,该模型可以解答《纽约时报》的字谜游戏,甚至能为用户提供市场营销策略方面的建议...

大型语言模型的推理能力受输出格式限制影响显著,尤其在JSON格式下最为严重

大型语言模型(LLMs)的推理能力竟然受到输出格式的显著影响,尤其是当输出格式被严格限定为JSON时,这种影响更为明显。台湾大学与Appier AI Research的一项最新研究揭示了这一现象,并提出了一种有效缓解该问题的方法。 研究背景 在现实世界的应用场景中,为了使大型语言模型能够更好地融入各种工业应用程序,往往需要它们遵循特定的标准化输出格式,如JSON或XML。然而,如何在保持模型推理能力的同时满足这些格式要求,一直是研究者们关注的重点。 实验设计 研究团队选取了一个具体的例子进行实验:计算Eliza一周工作...

OpenAI的「草莓项目」揭秘:强化推理能力,后训练技术引领AGI路线图新里程

OpenAI近期被曝光了一个名为“草莓”的新项目,该项目具有前瞻性的规划能力,能够自主浏览网页并进行深度研究。草莓模型经过大规模通用数据的后期训练,提升了推理能力,据信已达到OpenAI AGI路线图中的Level 2级别。尽管内部文件显示OpenAI正在全力研发,但Strawberry的具体运作方式仍处于高度保密状态,发布时间未知。有消息称,Strawberry与去年的Q*项目有关,后者在OpenAI内部已取得突破。该模型旨在增强AI的推理能力,使其不仅限于提供查询答案,还能进行自主的决策和研究。OpenAI期望Strawberry的创新能够显著提升AI模型...

大模型 Benchmark挑战:GPT-4与Claude3遇挫,动物过河问题揭示推理能力劣效比率,LeCun盛赞新测试标准

在人工智能领域,一个新的挑战正在引起热议,那就是“大模型Benchmark”,它让GPT-4和Claude 3等先进模型纷纷败下阵来。这项测试源于逻辑学中的经典问题“动物过河”,模型们在解决此类问题时表现出显著的不足。网友们因此创造了一个名为“劣效比率”的指标,用来衡量模型解答的效率与实际最优解之间的差距。在测试中,GPT-4错误地认为需要五次运送,而Claude则提出了需要三次的不合理方案。即使面对无需运送的情况,模型依然坚持规划运输策略,显示出模型的推理能力可能受到训练数据的显著影响。此外,包括文心一言、通义千问在内...

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

纽约大学的研究揭示了一种AI的新能力,即AI能够在不依赖人类步骤的情况下,通过隐藏的“心算”过程解决复杂任务。研究团队发现,即使将AI的推理步骤替换为无意义的“……”符号,AI在某些任务中的表现仍然能够显著提高。这一发现挑战了以往认为AI需要模仿人类分解任务的观念,并引发了关于AI推理机制的讨论。 研究人员通过设计3SUM和2SUM-Transform两个任务来测试这一理论,发现填充“……”的AI模型在长序列任务中保持高准确率,即使没有看到人类的解题步骤。此外,实验还显示,填充token的隐藏层表示包含与下游任务相关的隐性计算,...

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

最近的研究揭示了一个令人惊讶的现象,即许多流行的大规模语言模型(LLMs)存在过拟合问题。尽管一些小型模型如微软的 Phi-3 和 Mistral 8x22B 在推理任务上表现出色,但新研究表明,当前的评估方法可能并未准确反映大模型的真实能力。问题在于,大部分研究依赖于如 GSM8k、MATH 等测试集,而这些数据集可能已被训练数据污染,导致模型在基准测试中的表现被夸大。 Scale AI 的最新论文深入探讨了包括 GPT-4、Gemini、Claude 等在内的多个大模型,发现它们受到基准数据污染的影响。为避免数据污染,Scale AI 创建了新的 GSM1...

GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%

本文讲述了关于人工智能模型GPT-4和Claude3在解决一个看似简单的脑筋急转弯推理题上的表现。一位开发者质疑GPT模型在训练集之外缺乏推理能力,认为它们无法实现人工智能(AGI),并悬赏1万美元发起挑战。然而,很快就有网友通过巧妙的提示让GPT-4和Claude3成功解决了这个问题,证明了模型的潜力。开发者Taelin承认了自己的错误,并支付了奖金。文章还讨论了模型的局限性,如无法进行长期逻辑推理,以及提示的重要性。尽管如此,人们还是对GPT模型的性能表示了赞赏,认为它们在很多领域已经展现出强大的应用价值。