[发明专利]一种基于DDPG的移动机器人无先验地图导航决策方法在审
申请号: | 202210055583.2 | 申请日: | 2022-01-18 |
公开(公告)号: | CN114396949A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 张毅;宋泽;刘想德 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G01C21/20 | 分类号: | G01C21/20;G01S7/481 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ddpg 移动 机器人 先验 地图 导航 决策 方法 | ||
本发明涉及一种基于DDPG的移动机器人无先验地图导航决策方法,属于计算机领域。该方法为:S1:初始化Actor网络、Critic网络的参数、设置经验缓冲池大小以及随机取样的大小;S2:构建导航决策模型的训练的仿真环境;S3:提取机器人搭载的激光雷达(-90°,+90°)范围的9个均匀间隔的扇形区域的测距信息;S4:导航决策模型驱动机器人向目标点靠近,开始对导航决策模型进行训练;S5,重复S4步骤,直到机器人所获得的奖励值和导航成功率保持较高值且保持稳定;S6:导航决策模型训练结束后,设置新的仿真环境对机器人的导航性能和稳定系进行测试验证。本发明具有更快的训练速度、较好的导航性能和泛化性。
技术领域
本发明属于计算机领域,涉及一种基于DDPG的移动机器人无先验地图导航决策方法。
背景技术
为了让移动机器人在人类活动场景中得到应用,需要使其具备在未知的复杂场景中的导航能力。传统的SLAM方案通过激光雷达等传感器获取机器人周围的环境信息,并构建出导航的全局地图,再根据定位和路径规划算法,实现在所构建的地图内的导航。这样的方案存在以下问题:构建和更新全局地图需要耗费大量的时间,且当机器人遇到动态障碍物或超出全局地图范围的情况时,很难及时更新地图,从而导致无法完成导航任务。基于深度强化学习算法的导航模型可以通过驱动机器人与周围环境不断交互,以获得最大奖励为目标不断优化机器人的动作选择,从而规划得到最优导航策略,完成在未知环境中的自主运动规划。由于其不依赖完备的环境先验知识,能够自主学习优化运动规划策略。因此,基于深度强化学习的导航模型能够在没有先验地图的情况下完成导航任务,从而使机器人不受全局地图的约束。然而,当前主流的基于深度强化学习的导航模型存在奖励函数设计不合理从而导致算法难以收敛以及在复杂环境中导航适应性能差等问题。
深度强化学习算法,如DQN、DDPG、PPO等算法的发展促使学者利用深度强化学习算法解决机器人在未知环境中的导航问题,Guo等人结合船舶在实际航行中的环境模型,提出了一种基于优化的DQN算法的沿海船舶路径规划模型,然而,该模型规划出的路径存在较多的路径角,且输出的动作为离散动作,在动态环境中容易与障碍物发生碰撞。Tai等人在机器人无地图导航中使用异步DDPG算法,通过输入10维稀疏激光测量信息和目标的相对位置,使智能体学习连续的控制动作,在仿真环境中训练,并在真实环境中测试了机器人的导航性能。但由于该模型中的奖励函数较为“稀疏”,导致导航模型训练速度较慢,且当机器人处于障碍物较多的环境时,机器人导航鲁棒性较差。Zhelo等人通过增加好奇心驱动策略改进了A3C算法,训练后的机器人在未知的环境中具有更好的泛化能力,但没有在复杂环境进行导航测试。针对机器人在复杂场景的导航问题,Toan等人提出了将卷积神经网络与PPO结合的方法,并利用Boltzmann选择策略平衡机器人的探索与开发,提高了机器人在复杂场景的探索能力,但其输出的动作为离散动作,在复杂场景中灵活性较低。
本发明旨在解决现有技术问题为:在复杂场景中导航鲁棒性差、在复杂场景中机器人动作灵活性低、奖励函数设置不合理导致算法难以收敛以及在复杂场景中导航适应性能差等问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于DDPG的移动机器人无先验地图导航决策方法,拟解决基于深度强化学习的移动机器人在复杂场景中导航鲁棒性差、动作灵活性低、奖励函数设置不合理导致算法难以收敛以及在复杂场景中导航适应性能差等问题。相比于当前的导航模型,本发明所提出的导航模型训练速度更快、在复杂场景中导航适应性能和泛化能力较好其动作灵活性较高。
为达到上述目的,本发明提供如下技术方案:
一种基于DDPG的移动机器人无先验地图导航决策方法,该方法包括以下步骤:
S1:初始化Actor网络、Critic网络的参数、设置经验缓冲池大小以及随机取样的大小;
S2:构建导航决策模型的训练的仿真环境;
S3:提取机器人搭载的激光雷达(-90°,+90°)范围的9个均匀间隔的扇形区域的测距信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210055583.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:海绵城市雨水收集净化处理系统
- 下一篇:一种自适应扩展视场放射源定位方法