标签:逻辑推理

理想发布下一代自动驾驶架构MindVLA,助力物理智能体实现空间智能与逻辑推理突破

段落一: 3月18日,理想汽车自动驾驶技术负责人贾鹏在英伟达GTC 2025大会上发表了主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》。他分享了理想汽车对下一代自动驾驶技术MindVLA的最新思考和进展。贾鹏提到:“MindVLA是一种机器人大模型,成功整合了空间智能、语言智能和行为智能。一旦实现物理世界与数字世界的结合,将为更多行业赋能。MindVLA将把汽车从单纯的运输工具转变为贴心的专职司机,具备听懂指令、识别环境和找到目标的能力。” 段落二: 基于端到端和VLM双系统架构的最佳实践,以及对前沿技术的敏锐洞...

Kimi最新推出的k1视觉思考模型

近日,一款新的AI技术引起了人们的关注。只需提供一张图片,这款AI就能推测出一个人的性格特征。不仅如此,通过分析用户的音乐播放列表,AI还能大致推测出用户近期的心理状态。这一切都得益于Kimi最新推出的k1视觉思考模型。 距离Kimi推出上一款数学模型k0-math并成功挑战o1仅过去了一个月,k1便迅速问世。与之前的k0-math相比,k1不仅具备更强的推理能力,还增加了视觉分析功能。这意味着用户可以通过拍照上传题目,让k1直接进行解答,其在数理化领域的表现甚至宣称能够匹敌或超越Open AI的o1。 此前,我们在测试k0-math...

苹果 AI 研究揭示:猕猴桃算术问题难倒 O1、Llama 等 20 多个顶级模型,逻辑推理能力受干扰项影响显著

11 月 2 日,据《洛杉矶时报》报道,苹果公司的研究团队对 20 个最先进的 AI 模型进行了测试,结果显示这些模型在处理包含干扰项的简单算术问题时表现不佳,甚至不如小学生。苹果团队设计了一道简单的算术题来测试这些 AI 模型,题目如下: Oliver 在星期五采摘了 44 个猕猴桃,星期六采摘了 58 个猕猴桃,星期日采摘的数量是星期五的两倍,但其中有 5 个猕猴桃比平均值要小。请问 Oliver 这三天共摘了多少个猕猴桃? 正确答案是 190 个,计算公式为:44(星期五)+ 58(星期六)+ 88(44 * 2,星期日)。然而,测试的 20 ...

OpenAI的大语言模型O1推理能力遭受质疑:GSM8K和逻辑推理测试揭示其脆弱性

就在一个月前,OpenAI悄然发布了o1,其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验,许多模型遇到这些问题时往往会不知所措,甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题,几乎所有的大模型都无法正确解答,然而o1却给出了完美的答案。在之前的文章中,我分享了OpenAI给出的最佳提示词写作方法,第一条就是:保持提示词简单直接。模型擅长理解和响应简单的指令,而不是复杂的指导。我认为这是为了让o1更好地理解需求,同时加快处理速度。 直到最近看到苹果发布的一篇关于大型语言模型(LLM)的研究...

探讨AGI与Scaling Law:马毅教授解析大语言模型对白盒CRATE架构的逻辑推理新视野——打造全球第二个OpenAI

马毅教授曾评论,顶尖CS毕业生不应局限于大语言模型,而应寻求创新。OpenAI的Sora展示了新毕业生的潜力。马毅认为大语言模型不是通往AGI的终点,而ChatGPT引领了AI 2.0时代,使AI智能通用性显现。AGI成为可实现的目标,Scaling Law成为实现AGI的原理,即增加数据、参数和算力以提升模型性能。然而,这种资源投入可能导致模型性能提升的局限性,如逻辑推理和数理能力的缺乏。马毅团队通过白盒CRATE架构研究,揭示Transformer模型的本质是数据压缩,认为目前技术无法达到人类智能水平。白盒架构能更高效、有针对性地发展模型,...

最新中文大模型测评:百川智能 Baichuan 3 国内第一

在最新的《中文大模型基准测评 2024 年度 4 月报告》中,SuperCLUE 评测机构对国内外32个知名大模型进行了全面评估。这份报告揭示了百川智能的 Baichuan 3 在国内大模型中占据领先地位,紧随其后的是智谱 GLM-4、通义千问 2.1、文心一言 4.0和 Moonshot (Kimi)。尽管如此,国际上的GPT-4和Claude3在测评中表现出更高的得分。 SuperCLUE 不仅局限于传统的选择题形式,还引入了开放性问题的测评,以模拟实际应用中的大模型场景。通过多轮对话的设定,深入评估模型的上下文理解、记忆和对话能力。本次测评涵盖了逻辑推理、代码...