标签:强化学习

OpenAI震撼发布全新O1模型:深度融合强化学习与思维链技术,引领人工智能领域迈向新高度

一、OpenAI发布o1模型 北京时间今日凌晨,OpenAI正式推出了名为OpenAI o1的新模型,该模型之前被称为“Strawberry”,最初的代号为“Q*”。OpenAI CEO萨姆·奥尔特曼(Sam Altman)称之为“新范式的开始”。根据官方信息,o1模型具有更大的规模、更强的推理能力,但同时也更慢、更昂贵。 经过强化学习(Reinforcement Learning)的训练,o1模型在推理能力方面取得了显著进展。研发团队发现,随着训练时间和测试时间的增加,模型的表现逐步提升。这种方法与传统的大规模语言模型(LLM)预训练方式有所不同。o1模型在处理复杂推理问...

【强化学习的胜利:AI角色单挑《黑神话·悟空》历经千次挑战,终克首个Boss,博主图灵的猫全程记录】

1. 一个独特的创意 最近,许多玩家晚上握着金箍棒直捣天宫,白天则握着地铁杆直达公司。在这个背景下,科技博主「图灵的猫」开发了一个AI角色,让它在游戏中面对各种挑战。经过无数次失败后,AI角色终于击败了首个BOSS——广智。这一消息迅速引发社交媒体热议,网友们纷纷称赞这种创新的做法。 2. AI角色的开发历程 博主的想法源于一个独特的脑回路。两个月前,《黑神话·悟空》尚未上线,博主便决定开发一个AI角色,让它参与游戏旅程。然而,开发这样一个复杂的AI角色并非易事。传统的AI技术难以处理ARPG游戏中复杂的决策...

Pieter Abbeel与Covariant引领强化学习新风向:亚马逊变相收购与其发展战略

近期,AI 初创公司的创始人纷纷加入大型科技公司,这一现象再次引起关注。亚马逊最近宣布,从机器人 AI 系统初创公司 Covariant 挖走了三位联合创始人 Pieter Abbeel、Peter Chen(陈曦)和 Rocky Duan(段岩)。此外,Covariant 的四分之一员工也被亚马逊招致麾下,公司的研发模型技术也被授权给亚马逊。 Pieter Abbeel:强化学习界的领军人物 Pieter Abbeel 是斯坦福大学计算机博士,也是吴恩达教授指导的第一位博士生。他自 2008 年以来一直担任加州大学伯克利分校教授,并曾在 2016-2017 年间在 OpenAI 从事研究工作...

DAI 2024 征稿启动:分布式人工智能盛会聚焦 Agent Day —— 强化学习奠基人 Richard Sutton 确认出席!更有颜水成、Sergey Levine 及 DeepMind 科学家共探大型语言模型与多智能体系统前沿进展

分布式人工智能:探索未来的无限可能 随着科技进步的步伐不断加快,人工智能正逐渐成为推动社会发展的重要引擎。在这一浪潮中,分布式人工智能(Distributed Artificial Intelligence, DAI)作为AI领域的一个重要分支,近年来受到了广泛关注。尤其值得一提的是,基于大型语言模型(Large Language Model, LLM)的智能体(Agent)以其独特的语言理解和生成能力,在自然语言处理、知识推理及任务规划等方面展现出巨大潜力,成为了AI领域的焦点。 智能体引领新潮流 智能体不仅在游戏、编程等领域展现了其应用潜力,还在日常...

杨笛一团队的DITTO:大语言模型高效对齐新突破,模仿学习与在线比较数据强化技术仅需少量示例

在培养大语言模型(LLM)的过程中,模仿学习的概念可以被巧妙地应用。斯坦福大学的研究团队提出了名为DITTO的新框架,它利用少量的用户示范来引导LLM与特定用户偏好对齐,从而减少了大量比较数据的需求。DITTO通过默认用户更偏爱示范而非原始模型的输出,构建增强数据集,并使用对齐算法如DPO来更新模型。此外,DITTO还可视为一种在线模仿学习算法,能够超越专家表现。实验表明,DITTO在与传统方法如SFT相比时,表现出更高的效率和性能。DITTO的关键在于利用模型自身的输出和专家示范生成比较数据,通过迭代和重放比较数据的...

谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏

谷歌DeepMind团队近期推出了一个创新的AI代理,名为SIMA,专为3D环境设计。SIMA的独特之处在于它无需游戏源代码或特定API,仅需图像和自然语言指令,即可在各种复杂的3D游戏中执行类似人类玩家的操作,如走路、建造和驾驶。通过与多个游戏工作室合作,SIMA在《无人深空》等游戏上接受了广泛的测试和训练,能执行600多种任务,如挖矿、驾驶飞船,响应速度约10秒。 SIMA采用大模型训练,能理解并执行复杂的3D游戏指令,其架构由视觉感知、语言理解、建模规划和控制执行四部分组成,分别对应人类的视觉、思维、计划和行动。视...
12