[发明专利]基于势场的强化学习路径规划算法在审

申请号：	201911116875.7	申请日：	2019-11-15
公开（公告）号：	CN110794842A	公开（公告）日：	2020-02-14
发明（设计）人：	褚明;苗雨;杨茂男;穆新鹏;尚明明	申请（专利权）人：	北京邮电大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	机器人路径规划势场复杂环境条件可移动障碍物强化学习算法系统资源占用障碍物环境传统人工动态环境动作函数仿真环境复杂环境环境空间决策过程决策能力路径规划强化学习智能算法状态函数鲁棒性势场法无碰撞建模算法确定性机器人场景奖励优化决策
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种面向复杂环境下基于势场的强化学习机器人路径规划算法，属于智能算法优化领域，针对场景内存在大规模数量的可移动障碍物的环境条件，实现了复杂动态环境下的机器人路径规划。本方法首先利用传统人工势场法对环境空间进行建模，再根据势场模型定义马尔科夫决策过程中的状态函数、奖励函数和动作函数，并利用深度确定性策略梯度的强化学习算法，在仿真环境中对其进行训练，最终使机器人具备在复杂障碍物环境下进行无碰撞的路径规划的决策能力。实验结果表明，该方法决策时间短、系统资源占用低、具备一定的鲁棒性，能够实现在复杂环境条件下的机器人路径规划。

技术领域

本发明属于智能算法优化领域，涉及一种面向复杂动态环境的基于势场的强化学习路径规划算法。

背景技术

路径规划方法是指机器人在无障碍物碰撞的前提下，规划出一条从起始点到目标点的最优路径的方法。路径规划是一种满足约束条件下的优化问题，优化指标通常有时间最短、路程最优和能耗最低等，算法需具备一定的复杂性、随机性和多约束性等特点。根据路径规划的算法模型，可分为传统方法和智能方法，常用的传统方法有栅格法、人工势场法和拓扑空间法等，常用的智能方法有遗传算法、蚁群算法和强化学习方法等。

栅格法(Grid Method，GM)是最常用的环境建模方法之一，1968年W.E.Howden首次提出利用该方法进行机器人路径规划研究，栅格法将环境地图分为很多小栅格，定义障碍物区域、已覆盖区域和未覆盖区域。该方法简单实用，但计算量大，因此只适合简单环境的情况。四叉树法对栅格地图法进行改进，将环境地图进行四分化，四叉树数据结构使得环境可以迅速建模，但当许多小障碍物存在于环境时，树形结构会加深，计算量相应增大。

人工势场法(Artificial Potential Field，APF)是一种基于虚拟力的路径规划方法，由Khatib和Andrews等人于1994年首次提出。该方法将虚拟的势场附加在机器人的运动环境中，假设目标点处存在引力场，障碍物处存在斥力场，将机器人视为一个质点，在整个环境中受到目标点对其施加的引力，在障碍物附近受到斥力，机器人的运动方向取决于引力和斥力的合力。人工势场法收敛速度快，实时性强，但不适用于复杂的动态环境，优化过程中容易发生合力为零、陷入局部极小值的现象。

遗传算法(Genetic Algorithm，GA)是人工智能科学的一个分支，是一种模仿达尔文的遗传进化过程搜索最优解的算法。其思想源于遗传选择和适者生存的进化规律，将一种群体中的所有个体视作对象，利用随机化技术指导对一个编码的参数空间进行高效搜索，遗传算法的遗传操作包括选择、交叉和变异，参数编码、初始群体的设定、适应度函数的设计、遗传操作设计和控制参数设定五个要素是遗传算法的核心内容。其最大的优点是容易与其他算法进行结合，缺点是计算效率不高，改进该算法也是当前的研究热点。

蚁群算法(Ant Colony Algorithm，ACA)是一种启发式的搜索算法，其思想源于蚁群觅食行为的探索，蚂蚁觅食时会在经过路径上留下一定量的信息素，同一时间段内最短的路径上保留的信息素相对较多，因此通过算法的反复迭代后，后来的蚂蚁会根据信息素浓度选择较短的路径。该算法易于实现，但计算效率不高，容易陷入局部最优解。

强化学习(Reinforcement Learning，RL)的方法是一种比较新兴的研究方法，基本思想是结合机器学习的理论，对机器人在学习阶段的行为进行评估，如果机器人的行为符合预期设定则奖励为正，那么机器人将在以后的动作行为中更加偏向使用该行为，反之这种行为的出现概率将会越来越低，甚至消失。通过有效的设定行为奖惩规则，可以使得机器人能够按照设定进行长时间的“训练”，最终实现机器人的路径规划。强化学习路径规划的研究难点主要在于路径规划到马尔科夫过程的转化，以及状态函数、动作函数和奖励函数的定义。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911116875.7/2.html，转载请声明来源钻瓜专利网。

上一篇：路径导航方法、装置及计算机可读存储介质
下一篇：基于观测器的非线性船舶时滞动力定位船鲁棒镇定系统

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于势场的强化学习路径规划算法在审

专利文献下载