[发明专利]一种动态环境下的移动机器人路径规划方法在审

申请号：	202111347670.7	申请日：	2021-11-15
公开（公告）号：	CN114185339A	公开（公告）日：	2022-03-15
发明（设计）人：	李芃;丁祥成;孙宏放;张兰勇;李奕霏;刘洪丹	申请（专利权）人：	哈尔滨工程大学;哈尔滨工程大学青岛船舶科技有限公司
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	哈尔滨市阳光惠远知识产权代理有限公司 23211	代理人：	刘景祥
地址：	150000 黑龙江***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种动态环境移动机器人路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种动态环境下的移动机器人路径规划方法。通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息；对原始数据进行数据处理后，与移动机器人周围的信息结合后得到DDPG算法的状态S；设计DDPG算法的状态空间、动作空间和奖励函数，所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励；根据速度和运动的特点构建多类型动态障碍物环境；将DDPG算法与好奇心算法相融合，建立内外奖励共同作用的奖励机制；移动机器人使用改进完成的DDPG算法在建立的环境中进行训练学习,实现动态环境下的移动机器人路径规划。本发明用以解决动态环境下移动机器人路径规划中存在准确率低和收敛速度慢的问题。

技术领域

本发明涉及移动机器人技术领域，具体涉及一种动态环境下的移动机器人路径规划方法。

背景技术

在机器人自主导航中，路径规划是一个非常重要的部分。机器人路径规划问题可以描述为在机器人自身位姿己知的情况下，根据一个或者多个优化目标，在机器人工作环境中寻找到一条从当前点到指定目标点的最优路径。目前，常用算法有人工势场法、遗传算法、模糊逻辑法、强化学习法等。其中强化学习(Reinforcement Learning，RL)算法是一种完全不需要智能体事先对所处环境进行了解的学习算法，移动机器人在对当前环境进行感知的同时采取相应的行动，根据当前状态和所采取的行动，移动机器人从当前状态迁移至下一个状态。Q-learning算法是强化学习的经典算法，算法简单且收敛性好，得到广泛应用。但当环境较为复杂，随着状态空间维数的增加，强化学习算法易陷入“维数爆炸”。深度学习(Deep Learning，DL)具有较好的处理高维信息的能力，将其与强化学习结合的深度强化学习(Deep Reinforcement Learning，DRL)通过学习端到端(End-to-end)的模型，既能处理高维的环境信息又能进行相应的规划任务。因此DQN算法应运而生，但DQN算法通常解决离散且维度不高的动作空间的问题。2016年由DeepMind团队提出的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法，使用Actor-Critic算法框架，同时借鉴DQN算法的思想解决连续动作空间问题。但DDPG算法应用于动态环境下路径规划时，存在着成功率低、收敛速度慢等缺点，且相关研究大多停留在理论层面，缺少对实际问题的解决方案。

发明内容

本发明提供一种动态环境下的移动机器人路径规划方法，用以解决动态环境下移动机器人路径规划中存在准确率低和收敛速度慢的问题。

本发明通过以下技术方案实现：

一种动态环境下移动机器人路径规划方法，所述路径规划方法包括以下步骤：

步骤1：通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息；

步骤2：对步骤1中的原始数据进行数据处理后，与移动机器人周围的信息结合后得到DDPG算法的状态S；

步骤3：设计DDPG算法的状态空间、动作空间和奖励函数，所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励；

步骤4：根据速度和运动的特点构建多类型动态障碍物环境；

步骤5：将DDPG算法与好奇心算法相融合，建立内外奖励共同作用的奖励机制；

步骤S6：移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习。

进一步的，所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。

进一步的，所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离，以及移动机器人朝向偏离目标点所在方向的角度。