标签:强化学习
清华团队利用强化学习与PRIME算法,仅需一万成本使Eurus-2-7B-PRIME大模型在数学推理上超越GPT-4
清华团队利用强化学习让7B模型数学能力超越GPT-4o,仅需一万块钱! 近日,清华大学NLP实验室、上海AI Lab、清华大学电子系以及OpenBMB社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME(Process Reinforcement through IMplicit REwards)。该方法不依赖任何蒸馏数据和模仿学习,仅用8张A100显卡,在不到10天的时间内,花费大约一万块钱,成功训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。 强化学习与大模型推理能力的突破 随着OpenAI o1和o3模型的发布,强化学习已被证明能够使大...
深入解析大型语言模型扩展范式:思维链作者Jason Wei详述下一词预测与强化学习在LLM中的应用
一、Jason Wei 的背景与贡献 关注 AI 领域的人对 Jason Wei 这个名字一定不陌生。他是 OpenAI 的一位资深研究科学家,经常在 OpenAI 的发布活动中露面。作为思维链概念开山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者,他的工作使这一技术广为人知。Jason Wei 在谷歌期间推广了思维链提示概念,并共同领导了指令微调的早期工作。2023 年初,他加入了 OpenAI,参与了 ChatGPT 和其他重大项目。 二、演讲概要 去年 11 月 20 日,Jason Wei 在宾夕法尼亚大学计算机与信息科学...
清华汪玉团队利用强化学习与Sim2Real技术,大幅降低无人机控制中的轨迹跟踪误差达50%,SimpleFlight助力实现鲁棒策略
机器之心AIxiv专栏介绍 机器之心的AIxiv专栏致力于发布和传播前沿学术和技术,涵盖了全球顶尖高校与企业实验室的研究成果。过去几年间,该专栏已报道了超过2000篇,极大地促进了学术交流与技术进步。如果您有出色的工作希望分享,欢迎通过以下邮箱投稿或联系:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。 强化学习在无人机控制中的突破性研究 清华大学高能效计算实验室的研究团队近期在强化学习(RL)应用于无人机控制方面取得了重要进展。该研究由汪玉教授和于超博士后领导,主要关注如何实现无需额外微调的...
Kimi最新推出的k1视觉思考模型
近日,一款新的AI技术引起了人们的关注。只需提供一张图片,这款AI就能推测出一个人的性格特征。不仅如此,通过分析用户的音乐播放列表,AI还能大致推测出用户近期的心理状态。这一切都得益于Kimi最新推出的k1视觉思考模型。 距离Kimi推出上一款数学模型k0-math并成功挑战o1仅过去了一个月,k1便迅速问世。与之前的k0-math相比,k1不仅具备更强的推理能力,还增加了视觉分析功能。这意味着用户可以通过拍照上传题目,让k1直接进行解答,其在数理化领域的表现甚至宣称能够匹敌或超越Open AI的o1。 此前,我们在测试k0-math...
北交大开源O1-CODER项目:结合强化学习与蒙特卡洛树搜索,提供详尽源代码、精选数据集及衍生模型伪代码与测试用例生成器
北京交通大学的研究团队最近低调发布了一个名为 O1-CODER 的新项目,该项目专注于编码任务,并且所有源代码、精选数据集及衍生模型均已完全开源。研究团队认为,编码是一项需要深思熟虑、逻辑严谨、逐步解决问题的典型任务,属于 System-2 思维方式。为了提升模型的 System-2 能力,他们创新地将强化学习(RL)与蒙特卡洛树搜索(MCTS)相结合,使模型能够自动生成推理数据,从而不断提升其逻辑推理能力。 在实验中,研究团队得出了几个关键结论: - 当推理正确时,基于伪代码的推理显著提高了代码生成的质量。 - 将监督微...
三年前的AI芯片设计造假?谷歌因学术不端深陷丑闻,强化学习与自动化布局的可复现性受质疑,吹哨人被开除并已起诉
2021年,谷歌在《自然》杂志上发表了一篇备受争议的论文《A graph placement methodology for fast chip design》。这篇论文的作者包括著名的研究员Jeff Dean和Quoc V. Le等人,他们提出了一种基于强化学习的芯片设计方法。据称,该方法能够在不到六小时内自动生成芯片布局,并且在功耗、性能和芯片面积等关键指标上优于或媲美人类工程师,而人类工程师通常需要数月的时间才能达到类似的效果。 谷歌在更早之前就已经发布了该论文的预印本,我们曾对此进行过报道,详情可参阅《6小时完成芯片布局,谷歌用强化学习助力芯片设...
智谱AI推出自主人工智能AutoGLM,谷歌和微软纷纷入局多模态模型与行为数据强化学习领域
昨天,微软突然发布了一款新的模型,该模型可用于网页自动化操作。微软此举也正式加入了与智谱AutoGLM类似的自主人工智能竞争。而在前天,《The Information》网站上报道了一则消息,标题为“Google Preps AI That Takes Over Computers”,意即谷歌正在准备推出接管计算机的人工智能。上周三,Claude发布;上周五,智谱AI发布;周末,谷歌传出消息;接着是微软。短短一周内,已有四家公司宣布将推出类似产品,其中三家已悄然发布:Anthropic的Claude、智谱的AutoGLM和微软的OmniParser。这些产品的表现令人瞩目。尽管谷歌的消...
满血版O1-Preview剧透:OpenAI的GPT-4O在数学和代码能力上再次突破天花板,强化学习助力测试评估全面升级
满血版O1即将发布,性能超越预览版 近日,OpenAI在其官网的商业化频道中提前曝光了备受期待的满血版O1模型。根据视频截图显示,满血版O1在数学和编程领域表现出色,远远超过了现有的GPT-4O和O1-Preview(预览版)。OpenAI计划同步发布GPT系列和O1系列模型,并正在进行满血版O1的基准测试和运行评估。 O1系列模型的特点与优势 O1系列是OpenAI首个采用强化学习训练的模型,其特点是在生成回答之前会经历一个复杂的思维链过程,从而增强模型的能力。O1系列分为三个版本: - O1(满血版):作为最新的大模型,满血版O1专注...
Meta 推出自学评估器,利用思维链技术和强化学习打造自主AI智能体,优化AI模型工作评估
Meta 发布新 AI 模型,减少人类参与度 站长之家(ChinaZ.com)10 月 20 日报道:Facebook 母公司 Meta 近日发布了其研究部门的一系列新 AI 模型,其中包括一款名为「自学评估器」(Self-Taught Evaluator)的模型。这款模型有望大幅减少人类在 AI 开发过程中的参与度。此前,Meta 在 8 月份的一篇论文中详细介绍了这一工具,该论文阐述了如何利用类似于 OpenAI 最近发布的 o1 模型中的「思维链」技术,使模型能够对其输出进行可靠的评估。 「思维链」技术提升问题解决能力 「思维链」技术通过将复杂问题分解成更小的逻辑步...
字节跳动推出AGILE框架:运用强化学习优化大语言模型(LLM)Agent端到端能力全面升级
大语言模型(Large Language Models, LLMs)的快速发展推动了LLM Agent的进步。为了增强LLM Agent的能力,最近的研究提出了多个关键组件和工作流。然而,如何将这些核心要素整合进一个统一的框架,并进行端到端优化,仍然是一个挑战。来自字节跳动(ByteDance)的研究人员提出了一种基于强化学习(Reinforcement Learning, RL)的LLM Agent框架——AGILE。 在AGILE框架下,Agent具备多种能力,包括记忆、工具使用、规划、反思、与外界环境交互及主动求助专家。通过强化学习,所有这些能力都能进行端到端的训练。特别是,AGILE...