标签：逻辑推理

理想发布下一代自动驾驶架构MindVLA，助力物理智能体实现空间智能与逻辑推理突破

段落一： 3月18日，理想汽车自动驾驶技术负责人贾鹏在英伟达GTC 2025大会上发表了主题演讲《VLA：迈向自动驾驶物理智能体的关键一步》。他分享了理想汽车对下一代自动驾驶技术MindVLA的最新思考和进展。贾鹏提到：“MindVLA是一种机器人大模型，成功整合了空间智能、语言智能和行为智能。一旦实现物理世界与数字世界的结合，将为更多行业赋能。MindVLA将把汽车从单纯的运输工具转变为贴心的专职司机，具备听懂指令、识别环境和找到目标的能力。” 段落二：基于端到端和VLM双系统架构的最佳实践，以及对前沿技术的敏锐洞...

来源：

机器之心【阅读原文】
Tags：MindVLA 物理智能体空间智能自动驾驶逻辑推理

2周前

Kimi最新推出的k1视觉思考模型

近日，一款新的AI技术引起了人们的关注。只需提供一张图片，这款AI就能推测出一个人的性格特征。不仅如此，通过分析用户的音乐播放列表，AI还能大致推测出用户近期的心理状态。这一切都得益于Kimi最新推出的k1视觉思考模型。距离Kimi推出上一款数学模型k0-math并成功挑战o1仅过去了一个月，k1便迅速问世。与之前的k0-math相比，k1不仅具备更强的推理能力，还增加了视觉分析功能。这意味着用户可以通过拍照上传题目，让k1直接进行解答，其在数理化领域的表现甚至宣称能够匹敌或超越Open AI的o1。此前，我们在测试k0-math...

来源：

快科技【阅读原文】
Tags：k1 强化学习思维链视觉思考模型逻辑推理

3个月前

苹果 AI 研究揭示：猕猴桃算术问题难倒 O1、Llama 等 20 多个顶级模型，逻辑推理能力受干扰项影响显著

11 月 2 日，据《洛杉矶时报》报道，苹果公司的研究团队对 20 个最先进的 AI 模型进行了测试，结果显示这些模型在处理包含干扰项的简单算术问题时表现不佳，甚至不如小学生。苹果团队设计了一道简单的算术题来测试这些 AI 模型，题目如下： Oliver 在星期五采摘了 44 个猕猴桃，星期六采摘了 58 个猕猴桃，星期日采摘的数量是星期五的两倍，但其中有 5 个猕猴桃比平均值要小。请问 Oliver 这三天共摘了多少个猕猴桃？正确答案是 190 个，计算公式为：44（星期五）+ 58（星期六）+ 88（44 * 2，星期日）。然而，测试的 20 ...

来源：

IT之家【阅读原文】
Tags：AI 模型干扰项算术问题苹果逻辑推理

5个月前

OpenAI的大语言模型O1推理能力遭受质疑：GSM8K和逻辑推理测试揭示其脆弱性

就在一个月前，OpenAI悄然发布了o1，其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验，许多模型遇到这些问题时往往会不知所措，甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题，几乎所有的大模型都无法正确解答，然而o1却给出了完美的答案。在之前的文章中，我分享了OpenAI给出的最佳提示词写作方法，第一条就是：保持提示词简单直接。模型擅长理解和响应简单的指令，而不是复杂的指导。我认为这是为了让o1更好地理解需求，同时加快处理速度。直到最近看到苹果发布的一篇关于大型语言模型（LLM）的研究...

来源：

数字生命卡兹克公众号【阅读原文】
Tags：GSM8K OpenAI 大语言模型推理能力逻辑推理

5个月前

探讨AGI与Scaling Law：马毅教授解析大语言模型对白盒CRATE架构的逻辑推理新视野——打造全球第二个OpenAI

马毅教授曾评论，顶尖CS毕业生不应局限于大语言模型，而应寻求创新。OpenAI的Sora展示了新毕业生的潜力。马毅认为大语言模型不是通往AGI的终点，而ChatGPT引领了AI 2.0时代，使AI智能通用性显现。AGI成为可实现的目标，Scaling Law成为实现AGI的原理，即增加数据、参数和算力以提升模型性能。然而，这种资源投入可能导致模型性能提升的局限性，如逻辑推理和数理能力的缺乏。马毅团队通过白盒CRATE架构研究，揭示Transformer模型的本质是数据压缩，认为目前技术无法达到人类智能水平。白盒架构能更高效、有针对性地发展模型，...

来源：

iFeng科技【阅读原文】
Tags：AGI Scaling Law 大语言模型白盒CRATE架构逻辑推理

9个月前

最新中文大模型测评：百川智能 Baichuan 3 国内第一

在最新的《中文大模型基准测评 2024 年度 4 月报告》中，SuperCLUE 评测机构对国内外32个知名大模型进行了全面评估。这份报告揭示了百川智能的 Baichuan 3 在国内大模型中占据领先地位，紧随其后的是智谱 GLM-4、通义千问 2.1、文心一言 4.0和 Moonshot (Kimi)。尽管如此，国际上的GPT-4和Claude3在测评中表现出更高的得分。 SuperCLUE 不仅局限于传统的选择题形式，还引入了开放性问题的测评，以模拟实际应用中的大模型场景。通过多轮对话的设定，深入评估模型的上下文理解、记忆和对话能力。本次测评涵盖了逻辑推理、代码...

来源：

IT之家【阅读原文】
Tags：Baichuan 3 GPT-4 SuperCLUE 大模型评测逻辑推理

11个月前