标签：强化学习

电信人工智能研究院推出复杂推理大模型，数学推理能力达竞赛级表现，强化学习与思维链路技术助力评分超越o1-preview

中国电信人工智能研究院发布复杂推理大模型TeleAI-t1-preview 近日，中国电信人工智能研究院（TeleAI）正式发布了其最新成果——“复杂推理大模型”TeleAI-t1-preview，并即将上线天翼 AI 开放平台。该模型通过引入探索、反思等思考范式，显著提升了在数学推导和逻辑推理等方面的准确性。早在1500多年前，中国古代数学家祖冲之就曾指出，复杂事物的运行规律可以通过实际观测和数据推理严谨求得。如今，TeleAI-t1-preview 正在用严密的思维链路，摆脱幻觉的怪圈，向这一目标迈进。 TeleAI-t1-preview 在权威评测中表现出色在...

来源：

机器之心【阅读原文】
Tags：复杂推理大模型强化学习思维链路数学推理电信人工智能研究院

2个月前

DeepSeek-R1：中国AI大模型低成本高效训练，开源技术创新引领未来

来自中国的AI大模型DeepSeek-R1震撼全球，成本仅为国外竞品的三十分之一近日，中国的一家AI创业公司DeepSeek（深度求索）正式发布了其最新的大模型DeepSeek-R1。这款模型在数学、代码和自然语言推理等任务上的表现与OpenAI的o1版本相当，甚至在某些基准测试中略胜一筹。DeepSeek-R1的发布在全球AI圈引起了巨大反响。在AIME 2024数学基准测试中，DeepSeek-R1取得了79.8%的得分率，而OpenAI-o1为79.2%。在MATH-500基准测试中，DeepSeek-R1的得分率为97.3%，OpenAI-o1为96.4%。在编码任务中，DeepSeek-R1超越了96.3%的人类...

来源：

iFeng科技【阅读原文】
Tags：AI大模型 DeepSeek 开源强化学习

2个月前

「DeepSeek-R1接棒OpenAI，基于强化学习的多模态模型开源，引发AI圈性能对比热潮」

国内创业公司实现 OpenAI 愿景，多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域最近，大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时，备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1，在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮，实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...

来源：

机器之心【阅读原文】
Tags：DeepSeek-R1 多模态模型开源模型强化学习性能对比

2个月前

深度解析：DeepSeek-R1在高考真题中的表现——结合强化学习与开源AI技术，探究自然语言推理能力及量子力学影响，仍存四大短板

深度解读开源AI模型DeepSeek-R1：性能与挑战并存近日，开源AI模型DeepSeek-R1一经发布便迅速走红，引发了全球AI圈的广泛关注。不到一天时间，其GitHub论文就获得了5000多收藏，相关话题在各大平台如YC黑客新闻、Reddit和X等互动量超过万次。这款模型不仅完全免费使用，而且性能比肩OpenAI o1，在多个领域表现出色。一、技术亮点与用户评价英伟达资深科学家Jim Fan对DeepSeek-R1给予了高度评价，指出它不仅开源了正式版及6款蒸馏模型，还详细分享了训练细节和方法。这是首个充分展示强化学习（RL）飞轮效应显著且持续增...

来源：

智东西【阅读原文】
Tags：DeepSeek-R1 开源AI 强化学习自然语言推理量子力学

2个月前

清华团队利用强化学习与PRIME算法，仅需一万成本使Eurus-2-7B-PRIME大模型在数学推理上超越GPT-4

清华团队利用强化学习让7B模型数学能力超越GPT-4o，仅需一万块钱！近日，清华大学NLP实验室、上海AI Lab、清华大学电子系以及OpenBMB社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。该方法不依赖任何蒸馏数据和模仿学习，仅用8张A100显卡，在不到10天的时间内，花费大约一万块钱，成功训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。强化学习与大模型推理能力的突破随着OpenAI o1和o3模型的发布，强化学习已被证明能够使大...

来源：

量子位【阅读原文】
Tags：Eurus-2-7B-PRIME PRIME算法大模型推理强化学习过程奖励

3个月前

深入解析大型语言模型扩展范式：思维链作者Jason Wei详述下一词预测与强化学习在LLM中的应用

一、Jason Wei 的背景与贡献关注 AI 领域的人对 Jason Wei 这个名字一定不陌生。他是 OpenAI 的一位资深研究科学家，经常在 OpenAI 的发布活动中露面。作为思维链概念开山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者，他的工作使这一技术广为人知。Jason Wei 在谷歌期间推广了思维链提示概念，并共同领导了指令微调的早期工作。2023 年初，他加入了 OpenAI，参与了 ChatGPT 和其他重大项目。二、演讲概要去年 11 月 20 日，Jason Wei 在宾夕法尼亚大学计算机与信息科学...

来源：

机器之心【阅读原文】
Tags：- 下一词预测 - 扩展范式大型语言模型强化学习思维链

3个月前

清华汪玉团队利用强化学习与Sim2Real技术，大幅降低无人机控制中的轨迹跟踪误差达50％，SimpleFlight助力实现鲁棒策略

机器之心AIxiv专栏介绍机器之心的AIxiv专栏致力于发布和传播前沿学术和技术，涵盖了全球顶尖高校与企业实验室的研究成果。过去几年间，该专栏已报道了超过2000篇，极大地促进了学术交流与技术进步。如果您有出色的工作希望分享，欢迎通过以下邮箱投稿或联系：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。强化学习在无人机控制中的突破性研究清华大学高能效计算实验室的研究团队近期在强化学习（RL）应用于无人机控制方面取得了重要进展。该研究由汪玉教授和于超博士后领导，主要关注如何实现无需额外微调的...

来源：

机器之心【阅读原文】
Tags：Sim2Real SimpleFlight 强化学习无人机控制鲁棒策略

3个月前

Kimi最新推出的k1视觉思考模型

近日，一款新的AI技术引起了人们的关注。只需提供一张图片，这款AI就能推测出一个人的性格特征。不仅如此，通过分析用户的音乐播放列表，AI还能大致推测出用户近期的心理状态。这一切都得益于Kimi最新推出的k1视觉思考模型。距离Kimi推出上一款数学模型k0-math并成功挑战o1仅过去了一个月，k1便迅速问世。与之前的k0-math相比，k1不仅具备更强的推理能力，还增加了视觉分析功能。这意味着用户可以通过拍照上传题目，让k1直接进行解答，其在数理化领域的表现甚至宣称能够匹敌或超越Open AI的o1。此前，我们在测试k0-math...

来源：

快科技【阅读原文】
Tags：k1 强化学习思维链视觉思考模型逻辑推理

3个月前

北交大开源O1-CODER项目：结合强化学习与蒙特卡洛树搜索，提供详尽源代码、精选数据集及衍生模型伪代码与测试用例生成器

北京交通大学的研究团队最近低调发布了一个名为 O1-CODER 的新项目，该项目专注于编码任务，并且所有源代码、精选数据集及衍生模型均已完全开源。研究团队认为，编码是一项需要深思熟虑、逻辑严谨、逐步解决问题的典型任务，属于 System-2 思维方式。为了提升模型的 System-2 能力，他们创新地将强化学习（RL）与蒙特卡洛树搜索（MCTS）相结合，使模型能够自动生成推理数据，从而不断提升其逻辑推理能力。在实验中，研究团队得出了几个关键结论： - 当推理正确时，基于伪代码的推理显著提高了代码生成的质量。 - 将监督微...

来源：

IT之家【阅读原文】
Tags：O1-CODER 伪代码强化学习测试用例生成器蒙特卡洛树搜索

4个月前

三年前的AI芯片设计造假？谷歌因学术不端深陷丑闻，强化学习与自动化布局的可复现性受质疑，吹哨人被开除并已起诉

2021年，谷歌在《自然》杂志上发表了一篇备受争议的论文《A graph placement methodology for fast chip design》。这篇论文的作者包括著名的研究员Jeff Dean和Quoc V. Le等人，他们提出了一种基于强化学习的芯片设计方法。据称，该方法能够在不到六小时内自动生成芯片布局，并且在功耗、性能和芯片面积等关键指标上优于或媲美人类工程师，而人类工程师通常需要数月的时间才能达到类似的效果。谷歌在更早之前就已经发布了该论文的预印本，我们曾对此进行过报道，详情可参阅《6小时完成芯片布局，谷歌用强化学习助力芯片设...

来源：

机器之心【阅读原文】
Tags：人工智能可复现性强化学习自动化布局芯片设计

5个月前

123 4