字节跳动推出AGILE框架:运用强化学习优化大语言模型(LLM)Agent端到端能力全面升级

大语言模型(Large Language Models, LLMs)的快速发展推动了LLM Agent的进步。为了增强LLM Agent的能力,最近的研究提出了多个关键组件和工作流。然而,如何将这些核心要素整合进一个统一的框架,并进行端到端优化,仍然是一个挑战。来自字节跳动(ByteDance)的研究人员提出了一种基于强化学习(Reinforcement Learning, RL)的LLM Agent框架——AGILE。

AGILE框架下,Agent具备多种能力,包括记忆、工具使用、规划、反思、与外界环境交互及主动求助专家。通过强化学习,所有这些能力都能进行端到端的训练。特别是,AGILE框架允许Agent在不确定时主动向人类专家寻求建议,这有助于保持高准确率并增强其适应新任务的能力。论文详细可参见:[https://arxiv.org/abs/2405.14751](https://arxiv.org/abs/2405.14751),代码可在GitHub上找到:[https://github.com/bytarnish/AGILE](https://github.com/bytarnish/AGILE)。

研究人员在复杂问答任务中验证了AGILE框架的表现。在ProductQA和MedMCQA任务上,经过RL训练的13B模型或7B模型的表现超越了通过提示工程构建的GPT-4 Agent。AGILE框架包含四个核心模块:LLM、记忆(Memory)、工具(Tools)和执行器(Executor)。LLM负责预测动作,记忆模块记录Agent的轨迹,工具模块提供Agent可以调用的外部API,执行器则根据LLM的输出调用相应的模块执行具体操作,并将结果添加到LLM的上下文中。

例如,在电商问答场景中,AGILE Agent会根据用户的问题检索记忆。如果无法确定答案,Agent会向人类专家求助。在获得专家反馈后,Agent会反思并将新知识存储在记忆中,以便未来使用。此外,AGILE Agent还会根据用户的问题选择是否调用外部工具,如搜索引擎或数据库检索,以生成最终的回答。

在强化学习框架中,LLM Agents被定义为一个token-level MDP(Markov Decision Process)。动作空间由LLM的词表构成,每个生成的token是一个动作,而LLM本身作为策略模型。Agent的状态由LLM上下文和记忆组成。在每个时刻,LLM预测动作,执行器根据预定义的逻辑完成状态转移,并给予相应的奖励。AGILE框架提供了两种策略学习方法:模仿学习和强化学习。研究人员还提出了一种片段级别的优化算法来应对长程依赖的问题。

AGILE框架允许Agent主动向人类专家求助,这一机制有助于提高准确率并增强其泛化能力。然而,何时寻求帮助是一个复杂的决策过程,涉及Agent的自我评估、人类反馈的价值以及专家的成本。在强化学习框架中,通过定义相关的奖励,这种求助能力可以在端到端训练中得到提升。

实验结果显示,在ProductQA任务上,基于Vicuna-13b训练的AGILE Agent(agile-vic13b-ppo)表现优于GPT-4 Agent。在MedMCQA任务上,基于Meerkat-7b训练的AGILE Agent(agile-mek7b-ppo)也表现出色。消融实验进一步验证了记忆、咨询人类建议、反思和RL训练的重要性。

ByteDance Research专注于人工智能领域的前沿技术研究,涵盖机器翻译、视频生成基础模型、机器人研究、机器学习公平性等多个领域,并致力于将研究成果应用于实际产品和服务中。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...