清华汪玉团队利用强化学习与Sim2Real技术,大幅降低无人机控制中的轨迹跟踪误差达50%,SimpleFlight助力实现鲁棒策略

机器之心AIxiv专栏介绍
机器之心的AIxiv专栏致力于发布和传播前沿学术和技术,涵盖了全球顶尖高校与企业实验室的研究成果。过去几年间,该专栏已报道了超过2000篇,极大地促进了学术交流与技术进步。如果您有出色的工作希望分享,欢迎通过以下邮箱投稿或联系:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

强化学习无人机控制中的突破性研究
清华大学高能效计算实验室的研究团队近期在强化学习(RL)应用于无人机控制方面取得了重要进展。该研究由汪玉教授和于超博士后领导,主要关注如何实现无需额外微调的策略迁移,从而将仿真环境中的强化学习模型成功部署到真实世界中。

传统的控制方法如PID控制器和模型预测控制(MPC)在灵活性和效果上存在局限,而强化学习则展现出巨大潜力。然而,从仿真到现实的“Sim2Real”鸿沟一直是应用强化学习的主要挑战之一。为了应对这一问题,清华大学的研究团队提出了一种基于PPO的强化学习框架——SimpleFlight,旨在训练鲁棒且可零微调部署的控制策略。

SimpleFlight框架的关键技术和实验结果
SimpleFlight集成了五大核心技术,使得其在轨迹跟踪误差上比现有基线方法降低了50%以上。以下是这些关键技术的详细介绍:

1. 优化输入空间设计:采用相对位姿误差、速度和旋转矩阵作为输入,使策略能够进行长距离规划,并更好地处理急转弯的不可行轨迹。
2. 奖励设计:将时间向量添加到价值网络输入中,增强对时间信息的感知,同时使用连续动作差异的正则化作为平滑度奖励,确保输出动作的平滑性。
3. 系统辨识与域随机化:通过对关键动力学参数进行精确校准,确保仿真模型接近真实无人机的动力学特性。谨慎应用域随机化,避免不必要的复杂度增加。
4. 大batch size训练:在训练过程中使用较大的batch size,提升策略在真实环境中的泛化能力和鲁棒性。
5. 高效仿真平台:SimpleFlight集成在自主开发的高效无人机仿真平台OmniDrones上,基于NVIDIA的Isaac Sim搭建,支持每秒超过10^5步的仿真速度,加速了强化学习策略的训练。

研究人员在开源的微型四旋翼无人机Crazyflie 2.1上进行了广泛的实验,验证了SimpleFlight的有效性。实验结果显示,SimpleFlight不仅在所有基准轨迹上表现出色,而且是唯一能够成功完成包括平滑和不可行轨迹的方法。此外,SimpleFlight还被部署到一款自制的250mm轴距四旋翼无人机上,进一步验证了其在不同硬件平台上的适应性和效果。

研究意义与未来展望
SimpleFlight的意义不仅在于实现了当前最佳的控制性能,更在于它提供了一套关键训练因素的集合,能够轻松集成到现有的四旋翼无人机控制方法中,帮助研究者和开发者进一步优化控制性能。未来,SimpleFlight有望推动更多强化学习技术在无人机领域的实际应用。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...