标签:强化学习
电信人工智能研究院推出复杂推理大模型,数学推理能力达竞赛级表现,强化学习与思维链路技术助力评分超越o1-preview
中国电信人工智能研究院发布复杂推理大模型TeleAI-t1-preview 近日,中国电信人工智能研究院(TeleAI)正式发布了其最新成果——“复杂推理大模型”TeleAI-t1-preview,并即将上线天翼 AI 开放平台。该模型通过引入探索、反思等思考范式,显著提升了在数学推导和逻辑推理等方面的准确性。早在1500多年前,中国古代数学家祖冲之就曾指出,复杂事物的运行规律可以通过实际观测和数据推理严谨求得。如今,TeleAI-t1-preview 正在用严密的思维链路,摆脱幻觉的怪圈,向这一目标迈进。 TeleAI-t1-preview 在权威评测中表现出色 在...
DeepSeek-R1:中国AI大模型低成本高效训练,开源技术创新引领未来
来自中国的AI大模型DeepSeek-R1震撼全球,成本仅为国外竞品的三十分之一 近日,中国的一家AI创业公司DeepSeek(深度求索)正式发布了其最新的大模型DeepSeek-R1。这款模型在数学、代码和自然语言推理等任务上的表现与OpenAI的o1版本相当,甚至在某些基准测试中略胜一筹。DeepSeek-R1的发布在全球AI圈引起了巨大反响。 在AIME 2024数学基准测试中,DeepSeek-R1取得了79.8%的得分率,而OpenAI-o1为79.2%。在MATH-500基准测试中,DeepSeek-R1的得分率为97.3%,OpenAI-o1为96.4%。在编码任务中,DeepSeek-R1超越了96.3%的人类...
「DeepSeek-R1接棒OpenAI,基于强化学习的多模态模型开源,引发AI圈性能对比热潮」
国内创业公司实现 OpenAI 愿景,多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域 最近,大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时,备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1,在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。 去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮,实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...
深度解析:DeepSeek-R1在高考真题中的表现——结合强化学习与开源AI技术,探究自然语言推理能力及量子力学影响,仍存四大短板
深度解读开源AI模型DeepSeek-R1:性能与挑战并存 近日,开源AI模型DeepSeek-R1一经发布便迅速走红,引发了全球AI圈的广泛关注。不到一天时间,其GitHub论文就获得了5000多收藏,相关话题在各大平台如YC黑客新闻、Reddit和X等互动量超过万次。这款模型不仅完全免费使用,而且性能比肩OpenAI o1,在多个领域表现出色。 一、技术亮点与用户评价 英伟达资深科学家Jim Fan对DeepSeek-R1给予了高度评价,指出它不仅开源了正式版及6款蒸馏模型,还详细分享了训练细节和方法。这是首个充分展示强化学习(RL)飞轮效应显著且持续增...
清华团队利用强化学习与PRIME算法,仅需一万成本使Eurus-2-7B-PRIME大模型在数学推理上超越GPT-4
清华团队利用强化学习让7B模型数学能力超越GPT-4o,仅需一万块钱! 近日,清华大学NLP实验室、上海AI Lab、清华大学电子系以及OpenBMB社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME(Process Reinforcement through IMplicit REwards)。该方法不依赖任何蒸馏数据和模仿学习,仅用8张A100显卡,在不到10天的时间内,花费大约一万块钱,成功训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。 强化学习与大模型推理能力的突破 随着OpenAI o1和o3模型的发布,强化学习已被证明能够使大...
深入解析大型语言模型扩展范式:思维链作者Jason Wei详述下一词预测与强化学习在LLM中的应用
一、Jason Wei 的背景与贡献 关注 AI 领域的人对 Jason Wei 这个名字一定不陌生。他是 OpenAI 的一位资深研究科学家,经常在 OpenAI 的发布活动中露面。作为思维链概念开山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者,他的工作使这一技术广为人知。Jason Wei 在谷歌期间推广了思维链提示概念,并共同领导了指令微调的早期工作。2023 年初,他加入了 OpenAI,参与了 ChatGPT 和其他重大项目。 二、演讲概要 去年 11 月 20 日,Jason Wei 在宾夕法尼亚大学计算机与信息科学...
清华汪玉团队利用强化学习与Sim2Real技术,大幅降低无人机控制中的轨迹跟踪误差达50%,SimpleFlight助力实现鲁棒策略
机器之心AIxiv专栏介绍 机器之心的AIxiv专栏致力于发布和传播前沿学术和技术,涵盖了全球顶尖高校与企业实验室的研究成果。过去几年间,该专栏已报道了超过2000篇,极大地促进了学术交流与技术进步。如果您有出色的工作希望分享,欢迎通过以下邮箱投稿或联系:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。 强化学习在无人机控制中的突破性研究 清华大学高能效计算实验室的研究团队近期在强化学习(RL)应用于无人机控制方面取得了重要进展。该研究由汪玉教授和于超博士后领导,主要关注如何实现无需额外微调的...
Kimi最新推出的k1视觉思考模型
近日,一款新的AI技术引起了人们的关注。只需提供一张图片,这款AI就能推测出一个人的性格特征。不仅如此,通过分析用户的音乐播放列表,AI还能大致推测出用户近期的心理状态。这一切都得益于Kimi最新推出的k1视觉思考模型。 距离Kimi推出上一款数学模型k0-math并成功挑战o1仅过去了一个月,k1便迅速问世。与之前的k0-math相比,k1不仅具备更强的推理能力,还增加了视觉分析功能。这意味着用户可以通过拍照上传题目,让k1直接进行解答,其在数理化领域的表现甚至宣称能够匹敌或超越Open AI的o1。 此前,我们在测试k0-math...
北交大开源O1-CODER项目:结合强化学习与蒙特卡洛树搜索,提供详尽源代码、精选数据集及衍生模型伪代码与测试用例生成器
北京交通大学的研究团队最近低调发布了一个名为 O1-CODER 的新项目,该项目专注于编码任务,并且所有源代码、精选数据集及衍生模型均已完全开源。研究团队认为,编码是一项需要深思熟虑、逻辑严谨、逐步解决问题的典型任务,属于 System-2 思维方式。为了提升模型的 System-2 能力,他们创新地将强化学习(RL)与蒙特卡洛树搜索(MCTS)相结合,使模型能够自动生成推理数据,从而不断提升其逻辑推理能力。 在实验中,研究团队得出了几个关键结论: - 当推理正确时,基于伪代码的推理显著提高了代码生成的质量。 - 将监督微...
三年前的AI芯片设计造假?谷歌因学术不端深陷丑闻,强化学习与自动化布局的可复现性受质疑,吹哨人被开除并已起诉
2021年,谷歌在《自然》杂志上发表了一篇备受争议的论文《A graph placement methodology for fast chip design》。这篇论文的作者包括著名的研究员Jeff Dean和Quoc V. Le等人,他们提出了一种基于强化学习的芯片设计方法。据称,该方法能够在不到六小时内自动生成芯片布局,并且在功耗、性能和芯片面积等关键指标上优于或媲美人类工程师,而人类工程师通常需要数月的时间才能达到类似的效果。 谷歌在更早之前就已经发布了该论文的预印本,我们曾对此进行过报道,详情可参阅《6小时完成芯片布局,谷歌用强化学习助力芯片设...