标签：数学推理

视觉理解模型与数学推理结合：通义开源32B参数图像解析新模型，强化学习驱动的视觉逻辑分析能力提升，看图说话更进一步！

第一段智东西（公众号：zhidxcom）报道，3月25日，阿里云通义千问开源了一款更小尺寸的视觉理解模型——Qwen2.5-VL-32B-Instruct。这一发布与DeepSeek V3新版本几乎同时进行。该模型在输出风格、数学推理能力以及图像解析等方面表现出色，能够应对复杂的数学问题，并在识别和视觉逻辑推导任务中具备细粒度分析能力。第二段 Qwen2.5-VL-32B-Instruct是在1月底开源的Qwen2.5-VL系列基础上，通过强化学习持续优化而来的。这款模型采用Apache 2.0协议开源，其参数规模为32B，正迅速成为许多科技爱好者的首选模型大小。它不仅能...

来源：

智东西【阅读原文】
Tags：图像解析强化学习数学推理视觉理解模型视觉逻辑

7天前

电信人工智能研究院推出复杂推理大模型，数学推理能力达竞赛级表现，强化学习与思维链路技术助力评分超越o1-preview

中国电信人工智能研究院发布复杂推理大模型TeleAI-t1-preview 近日，中国电信人工智能研究院（TeleAI）正式发布了其最新成果——“复杂推理大模型”TeleAI-t1-preview，并即将上线天翼 AI 开放平台。该模型通过引入探索、反思等思考范式，显著提升了在数学推导和逻辑推理等方面的准确性。早在1500多年前，中国古代数学家祖冲之就曾指出，复杂事物的运行规律可以通过实际观测和数据推理严谨求得。如今，TeleAI-t1-preview 正在用严密的思维链路，摆脱幻觉的怪圈，向这一目标迈进。 TeleAI-t1-preview 在权威评测中表现出色在...

来源：

机器之心【阅读原文】
Tags：复杂推理大模型强化学习思维链路数学推理电信人工智能研究院

2个月前

苹果新论文揭示大型语言模型的逻辑推理能力局限：GSM-Symbolic与数学题挑战

苹果公司最新发布的一篇论文《GSM-Symbolic： Understanding the Limitations of Mathematical Reasoning in Large Language Models》探讨了大型语言模型（LLM）在数学推理方面的局限性。这篇论文由苹果机器学习研究工程师 Iman Mirzadeh 主笔，Samy Bengio 等人共同完成。研究团队通过一系列实验发现，即使是当前最先进的 LLM，如 OpenAI 的 o1-preview，在面对稍微复杂的数学问题时，依然会出现明显的推理错误。研究人员通过具体例子展示了这一现象。例如，当题目中包含无关紧要的细节时，模型往往会被误导。例如，题目...

来源：

机器之心【阅读原文】
Tags：GSM-Symbolic 大型语言模型数学推理苹果论文逻辑推理能力

6个月前

OpenAI O1模型在LMSYS竞技场全面登顶，编码能力和数学推理超越Claude及谷歌模型，O1-mini表现同样卓越

OpenAI O1 模型在 LMSYS 竞技场的卓越表现最近，OpenAI 发布的新模型 O1 在 LMSYS 竞技场的评测中取得了令人瞩目的成绩。O1 预览版（O1-preview）凭借其出色的性能，在多个领域稳居榜首，超越了最新的 GPT-4 版本。特别是在数学、复杂提示处理和编码领域，O1-preview 表现尤为突出。 O1-mini 虽然名称中有“mini”，但其综合排名与最新版 GPT-4 并列第二，同样在多个领域名列前茅。这一结果充分展示了 O1 模型在通用推理领域的强大实力。LMSYS 社区对此评价极高，称其为“难以置信的里程碑”。详细评测数据为了更直观地...

来源：

新智元公众号【阅读原文】
Tags：LMSYS 竞技场 o1 模型 OpenAI 数学推理编码能力

6个月前

阿里巴巴开源新模型Qwen2-Math：人工智能领域的数学推理专家，超越GPT-4o，数学能力全球领先!

阿里巴巴发布Qwen2-Math：数学推理领域的全新突破近期，阿里巴巴宣布开源了一款名为Qwen2-Math的强大数学模型，此模型旨在为数学推理领域带来革命性的进展。Qwen2-Math提供基础和指令微调两个版本，并包含了1.5B、7B和72B三种不同规模的参数配置。经过主流数学基准测试验证，Qwen2-Math-72B指令微调版展现出了超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro等知名闭源模型的卓越性能，甚至在与Meta的Llama-3.1-405B模型的竞争中也占据优势。这一成就确立了Qwen2-Math-72B在全球数学推理领域的领先地位。基础模型的深度...

来源：

AIGC开放社区公众号【阅读原文】
Tags：Qwen2-Math 人工智能开源数学推理阿里巴巴

8个月前