标签：强化学习

清华团队利用强化学习与PRIME算法，仅需一万成本使Eurus-2-7B-PRIME大模型在数学推理上超越GPT-4

清华团队利用强化学习让7B模型数学能力超越GPT-4o，仅需一万块钱！近日，清华大学NLP实验室、上海AI Lab、清华大学电子系以及OpenBMB社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。该方法不依赖任何蒸馏数据和模仿学习，仅用8张A100显卡，在不到10天的时间内，花费大约一万块钱，成功训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。强化学习与大模型推理能力的突破随着OpenAI o1和o3模型的发布，强化学习已被证明能够使大...

来源：

量子位【阅读原文】
Tags：Eurus-2-7B-PRIME PRIME算法大模型推理强化学习过程奖励

2个月前

深入解析大型语言模型扩展范式：思维链作者Jason Wei详述下一词预测与强化学习在LLM中的应用

一、Jason Wei 的背景与贡献关注 AI 领域的人对 Jason Wei 这个名字一定不陌生。他是 OpenAI 的一位资深研究科学家，经常在 OpenAI 的发布活动中露面。作为思维链概念开山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者，他的工作使这一技术广为人知。Jason Wei 在谷歌期间推广了思维链提示概念，并共同领导了指令微调的早期工作。2023 年初，他加入了 OpenAI，参与了 ChatGPT 和其他重大项目。二、演讲概要去年 11 月 20 日，Jason Wei 在宾夕法尼亚大学计算机与信息科学...

来源：

机器之心【阅读原文】
Tags：- 下一词预测 - 扩展范式大型语言模型强化学习思维链

2个月前

清华汪玉团队利用强化学习与Sim2Real技术，大幅降低无人机控制中的轨迹跟踪误差达50％，SimpleFlight助力实现鲁棒策略

机器之心AIxiv专栏介绍机器之心的AIxiv专栏致力于发布和传播前沿学术和技术，涵盖了全球顶尖高校与企业实验室的研究成果。过去几年间，该专栏已报道了超过2000篇，极大地促进了学术交流与技术进步。如果您有出色的工作希望分享，欢迎通过以下邮箱投稿或联系：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。强化学习在无人机控制中的突破性研究清华大学高能效计算实验室的研究团队近期在强化学习（RL）应用于无人机控制方面取得了重要进展。该研究由汪玉教授和于超博士后领导，主要关注如何实现无需额外微调的...

来源：

机器之心【阅读原文】
Tags：Sim2Real SimpleFlight 强化学习无人机控制鲁棒策略

3个月前

Kimi最新推出的k1视觉思考模型

近日，一款新的AI技术引起了人们的关注。只需提供一张图片，这款AI就能推测出一个人的性格特征。不仅如此，通过分析用户的音乐播放列表，AI还能大致推测出用户近期的心理状态。这一切都得益于Kimi最新推出的k1视觉思考模型。距离Kimi推出上一款数学模型k0-math并成功挑战o1仅过去了一个月，k1便迅速问世。与之前的k0-math相比，k1不仅具备更强的推理能力，还增加了视觉分析功能。这意味着用户可以通过拍照上传题目，让k1直接进行解答，其在数理化领域的表现甚至宣称能够匹敌或超越Open AI的o1。此前，我们在测试k0-math...

来源：

快科技【阅读原文】
Tags：k1 强化学习思维链视觉思考模型逻辑推理

3个月前

北交大开源O1-CODER项目：结合强化学习与蒙特卡洛树搜索，提供详尽源代码、精选数据集及衍生模型伪代码与测试用例生成器

北京交通大学的研究团队最近低调发布了一个名为 O1-CODER 的新项目，该项目专注于编码任务，并且所有源代码、精选数据集及衍生模型均已完全开源。研究团队认为，编码是一项需要深思熟虑、逻辑严谨、逐步解决问题的典型任务，属于 System-2 思维方式。为了提升模型的 System-2 能力，他们创新地将强化学习（RL）与蒙特卡洛树搜索（MCTS）相结合，使模型能够自动生成推理数据，从而不断提升其逻辑推理能力。在实验中，研究团队得出了几个关键结论： - 当推理正确时，基于伪代码的推理显著提高了代码生成的质量。 - 将监督微...

来源：

IT之家【阅读原文】
Tags：O1-CODER 伪代码强化学习测试用例生成器蒙特卡洛树搜索

3个月前

三年前的AI芯片设计造假？谷歌因学术不端深陷丑闻，强化学习与自动化布局的可复现性受质疑，吹哨人被开除并已起诉

2021年，谷歌在《自然》杂志上发表了一篇备受争议的论文《A graph placement methodology for fast chip design》。这篇论文的作者包括著名的研究员Jeff Dean和Quoc V. Le等人，他们提出了一种基于强化学习的芯片设计方法。据称，该方法能够在不到六小时内自动生成芯片布局，并且在功耗、性能和芯片面积等关键指标上优于或媲美人类工程师，而人类工程师通常需要数月的时间才能达到类似的效果。谷歌在更早之前就已经发布了该论文的预印本，我们曾对此进行过报道，详情可参阅《6小时完成芯片布局，谷歌用强化学习助力芯片设...

来源：

机器之心【阅读原文】
Tags：人工智能可复现性强化学习自动化布局芯片设计

4个月前

智谱AI推出自主人工智能AutoGLM，谷歌和微软纷纷入局多模态模型与行为数据强化学习领域

昨天，微软突然发布了一款新的模型，该模型可用于网页自动化操作。微软此举也正式加入了与智谱AutoGLM类似的自主人工智能竞争。而在前天，《The Information》网站上报道了一则消息，标题为“Google Preps AI That Takes Over Computers”，意即谷歌正在准备推出接管计算机的人工智能。上周三，Claude发布；上周五，智谱AI发布；周末，谷歌传出消息；接着是微软。短短一周内，已有四家公司宣布将推出类似产品，其中三家已悄然发布：Anthropic的Claude、智谱的AutoGLM和微软的OmniParser。这些产品的表现令人瞩目。尽管谷歌的消...

来源：

数字生命卡兹克公众号【阅读原文】
Tags：AutoGLM 多模态模型强化学习自主人工智能行为数据

5个月前

满血版O1-Preview剧透：OpenAI的GPT-4O在数学和代码能力上再次突破天花板，强化学习助力测试评估全面升级

满血版O1即将发布，性能超越预览版近日，OpenAI在其官网的商业化频道中提前曝光了备受期待的满血版O1模型。根据视频截图显示，满血版O1在数学和编程领域表现出色，远远超过了现有的GPT-4O和O1-Preview（预览版）。OpenAI计划同步发布GPT系列和O1系列模型，并正在进行满血版O1的基准测试和运行评估。 O1系列模型的特点与优势 O1系列是OpenAI首个采用强化学习训练的模型，其特点是在生成回答之前会经历一个复杂的思维链过程，从而增强模型的能力。O1系列分为三个版本： - O1（满血版）：作为最新的大模型，满血版O1专注...

来源：

iFeng科技【阅读原文】
Tags：- 满血版O1 GPT-4o o1-preview OpenAI 强化学习

5个月前

Meta 推出自学评估器，利用思维链技术和强化学习打造自主AI智能体，优化AI模型工作评估

Meta 发布新 AI 模型，减少人类参与度站长之家（ChinaZ.com）10 月 20 日报道：Facebook 母公司 Meta 近日发布了其研究部门的一系列新 AI 模型，其中包括一款名为「自学评估器」（Self-Taught Evaluator）的模型。这款模型有望大幅减少人类在 AI 开发过程中的参与度。此前，Meta 在 8 月份的一篇论文中详细介绍了这一工具，该论文阐述了如何利用类似于 OpenAI 最近发布的 o1 模型中的「思维链」技术，使模型能够对其输出进行可靠的评估。「思维链」技术提升问题解决能力「思维链」技术通过将复杂问题分解成更小的逻辑步...

来源：

站长之家【阅读原文】
Tags：- Meta AI 模型 - 思维链技术 - 自主 AI 智能体 - 自学评估器强化学习

5个月前

字节跳动推出AGILE框架：运用强化学习优化大语言模型（LLM）Agent端到端能力全面升级

大语言模型（Large Language Models, LLMs）的快速发展推动了LLM Agent的进步。为了增强LLM Agent的能力，最近的研究提出了多个关键组件和工作流。然而，如何将这些核心要素整合进一个统一的框架，并进行端到端优化，仍然是一个挑战。来自字节跳动（ByteDance）的研究人员提出了一种基于强化学习（Reinforcement Learning, RL）的LLM Agent框架——AGILE。在AGILE框架下，Agent具备多种能力，包括记忆、工具使用、规划、反思、与外界环境交互及主动求助专家。通过强化学习，所有这些能力都能进行端到端的训练。特别是，AGILE...

来源：

机器之心【阅读原文】
Tags：AGILE框架 LLM Agent 大语言模型字节跳动强化学习

6个月前

123 4