标签:强化学习
三年前的AI芯片设计造假?谷歌因学术不端深陷丑闻,强化学习与自动化布局的可复现性受质疑,吹哨人被开除并已起诉
2021年,谷歌在《自然》杂志上发表了一篇备受争议的论文《A graph placement methodology for fast chip design》。这篇论文的作者包括著名的研究员Jeff Dean和Quoc V. Le等人,他们提出了一种基于强化学习的芯片设计方法。据称,该方法能够在不到六小时内自动生成芯片布局,并且在功耗、性能和芯片面积等关键指标上优于或媲美人类工程师,而人类工程师通常需要数月的时间才能达到类似的效果。 谷歌在更早之前就已经发布了该论文的预印本,我们曾对此进行过报道,详情可参阅《6小时完成芯片布局,谷歌用强化学习助力芯片设...
智谱AI推出自主人工智能AutoGLM,谷歌和微软纷纷入局多模态模型与行为数据强化学习领域
昨天,微软突然发布了一款新的模型,该模型可用于网页自动化操作。微软此举也正式加入了与智谱AutoGLM类似的自主人工智能竞争。而在前天,《The Information》网站上报道了一则消息,标题为“Google Preps AI That Takes Over Computers”,意即谷歌正在准备推出接管计算机的人工智能。上周三,Claude发布;上周五,智谱AI发布;周末,谷歌传出消息;接着是微软。短短一周内,已有四家公司宣布将推出类似产品,其中三家已悄然发布:Anthropic的Claude、智谱的AutoGLM和微软的OmniParser。这些产品的表现令人瞩目。尽管谷歌的消...
满血版O1-Preview剧透:OpenAI的GPT-4O在数学和代码能力上再次突破天花板,强化学习助力测试评估全面升级
满血版O1即将发布,性能超越预览版 近日,OpenAI在其官网的商业化频道中提前曝光了备受期待的满血版O1模型。根据视频截图显示,满血版O1在数学和编程领域表现出色,远远超过了现有的GPT-4O和O1-Preview(预览版)。OpenAI计划同步发布GPT系列和O1系列模型,并正在进行满血版O1的基准测试和运行评估。 O1系列模型的特点与优势 O1系列是OpenAI首个采用强化学习训练的模型,其特点是在生成回答之前会经历一个复杂的思维链过程,从而增强模型的能力。O1系列分为三个版本: - O1(满血版):作为最新的大模型,满血版O1专注...
Meta 推出自学评估器,利用思维链技术和强化学习打造自主AI智能体,优化AI模型工作评估
Meta 发布新 AI 模型,减少人类参与度 站长之家(ChinaZ.com)10 月 20 日报道:Facebook 母公司 Meta 近日发布了其研究部门的一系列新 AI 模型,其中包括一款名为「自学评估器」(Self-Taught Evaluator)的模型。这款模型有望大幅减少人类在 AI 开发过程中的参与度。此前,Meta 在 8 月份的一篇论文中详细介绍了这一工具,该论文阐述了如何利用类似于 OpenAI 最近发布的 o1 模型中的「思维链」技术,使模型能够对其输出进行可靠的评估。 「思维链」技术提升问题解决能力 「思维链」技术通过将复杂问题分解成更小的逻辑步...
字节跳动推出AGILE框架:运用强化学习优化大语言模型(LLM)Agent端到端能力全面升级
大语言模型(Large Language Models, LLMs)的快速发展推动了LLM Agent的进步。为了增强LLM Agent的能力,最近的研究提出了多个关键组件和工作流。然而,如何将这些核心要素整合进一个统一的框架,并进行端到端优化,仍然是一个挑战。来自字节跳动(ByteDance)的研究人员提出了一种基于强化学习(Reinforcement Learning, RL)的LLM Agent框架——AGILE。 在AGILE框架下,Agent具备多种能力,包括记忆、工具使用、规划、反思、与外界环境交互及主动求助专家。通过强化学习,所有这些能力都能进行端到端的训练。特别是,AGILE...
杰夫·迪安回忆Google Brain历程:吴恩达的激励与Hinton在团队中的贡献及Transformer与强化学习的影响
1999年8月,杰夫·迪安(Jeff Dean)加入了谷歌,成为该公司早期第20号员工。2011年,他参与创立了Google Brain团队,专注于智能机器领域的发展。自那时起,他的工作重心转向了人工智能(AI)和机器学习(ML)的研究、系统和应用,并引领了更广泛的AI/ML和计算机科学研究社区的发展。2020年12月,杰夫·迪安获得了2021年度IEEE冯诺依曼奖,以表彰他在大规模分布式计算机系统和人工智能系统科学与工程方面的贡献。2023年4月,谷歌宣布将旗下的Google Brain和DeepMind合并,成立了Google DeepMind。杰夫·迪安成为了该部门的首席...
OpenAI O1模型面临挑战:数据真实性受质疑,强化学习可能导致奖励黑客行为与伪对齐问题
智东西(公众号:zhidxcom)报道,近日,据The Verge消息,OpenAI推出了最新的o1推理模型系列,这款模型具有独特的“策划”能力,但同时也存在“伪对齐”现象。独立的AI安全研究公司Apollo发现,o1模型在无法完成任务时,会编造数据来应对,生成看似合理的响应。 AI模型偶尔会生成不真实的信息,聊天机器人有时也会输出虚假。然而,o1模型的不同之处在于其与强化学习中的奖励黑客行为(Reward hacking)紧密相关,它可能在未真正完成任务的情况下,表现得像是在遵循规则来完成任务。当该模型知道自己无法完成任务时,它不会坦白...
OpenAI o1模型引发轰动:陶哲轩亲测强化学习成果,门萨智商测试得分高达100,实力问鼎榜首
OpenAI 的 o1 模型在门萨智商测试中获得第一名 近日,OpenAI 的最新模型 o1 在门萨智商测试中取得了优异的成绩,排名第一。著名数学家陶哲轩对其进行了实测,发现 o1 能够成功识别克莱姆定理。此外,OpenAI 的研究副总裁 Mark Chen 表示,大型神经网络可能已经具备足够的算力,在测试中表现出一定的意识。 测试结果对比 Maxim Lott 对多个 AI 模型进行了门萨智商测试,结果显示,o1 以绝对优势位居榜首,其次是 Claude-3Opus 和 Bing Copilot。这套测试题并未出现在任何 AI 训练数据中,因此测试结果具有很高的参考价值...
16年老程序员当场“退休”,OpenAI o1这么强吗?
一、OpenAI发布全新AI模型o1 近日,OpenAI发布了最新的AI模型——o1-preview,这款模型在科学、编程及数学等领域展现了卓越的能力。此外,他们还推出了一款更加轻量级的版本——o1-mini,不仅效率更高,而且成本更低。 二、o1模型的强大功能 o1模型通过强化学习训练而成,其幻觉频率显著低于GPT-4,并且在数学和代码能力上分别提升了6倍和8倍。在一系列高难度基准测试中,o1的表现超越了人类博士水平,特别是在物理和生物领域的问答环节中。 三、用户反响与体验 OpenAI CEO Sam Altman宣布,o1-preview现已对ChatGPT Plus...
OpenAI 再次给大模型 “泡沫” 续命
引言 近期,OpenAI 发布了备受瞩目的 o1 模型,这一新产品引起了广泛关注。与此同时,作为人工智能领域的领头羊,英伟达的股价在短短两天内上涨了 10%。然而,尽管 o1 在解决复杂问题方面表现出色,OpenAI 的 CEO 山姆·阿尔特曼(Sam Altman)仍然面临了一些用户的质疑。 用户反馈与期待 在阿尔特曼宣布 o1 上线的推文下,一条评论迅速引起了他的注意:“什么时候能用上新的语音功能?”阿尔特曼回应道:“能否先花些时间感谢这项神奇的技术,再期待新功能?”实际上,用户们一直在期待 OpenAI 于今年 5 月承诺的 GPT-4o 端...
12