[发明专利]一种基于深度强化学习的多机器人协同导航方法有效

申请号：	202010544077.0	申请日：	2020-06-15
公开（公告）号：	CN111781922B	公开（公告）日：	2021-10-26
发明（设计）人：	杨旭韵;成慧	申请（专利权）人：	中山大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	王晓玲
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习机器人协同导航方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于机器人中的多移动机器人技术领域，更具体地，涉及一种基于深度强化学习的多机器人协同导航方法。该方法结合了多任务学习的方式，通过深度强化学习方法来训练得到控制策略，使得机器人队伍的几何中心能够高效地到达目标点，在这过程中队伍能够安全地躲避动态障碍物和静态障碍物，并且能够尽量保持队伍的连通性。同时，通过有监督的深度学习方法来训练得到辅助策略，判断机器人个体的感知范围内是否存在动态障碍物，辅助策略的输出结果能够反映控制策略的决策过程，增强控制策略模型的可解释性。

技术领域

本发明属于机器人中的多移动机器人技术领域，更具体地，涉及一种基于深度强化学习的多机器人协同导航方法。

背景技术

相比于单机器人系统，由多个移动机器人组成机器人队伍在现实中能够以更优的效率和性能来完成工作，具有较广泛的应用场景。在工作空间中通常会存在一些未知障碍物，出于安全性的考虑，机器人队伍需要自主避障；其中，动态障碍物的出现更会增加避障的难度。另外，机器人队伍还需要维持连通性，以满足上层任务对机器人之间的距离约束条件。特别地，动态障碍物的出现不仅使得环境状态变得不稳定，并且还会更加干扰队伍内的协作，使得机器人队伍避障的难度大大增加。

用于控制多机器人队伍协同导航的方法可以分为基于规则的方法和基于学习的方法。其中，基于规则的方法在解决躲避动态障碍物问题时，采用的方法主要包括动态窗口法和速度障碍法。基于规则的方法需要知道障碍物的位置和速度或者是运动模型等精确的信息，但一些情况下机器人队伍所在的场景是未知的、随机的、多样的，并且障碍物的运动是随机的，很难为各种场景及时地获取精确的信息。

基于学习的方法可以在不需要构建障碍物地图的情况下，根据局部感知信息做出决策来控制机器人的运动。该类方法在处理包含动态障碍物的场景时，通常使用具有记忆能力的循环神经网络来获取感知数据中的时序信息。但当前基于学习的方法通常只关注单个机器人的避障问题，没有考虑队伍整体的连通性；如专利201910795982，提供了一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法，虽然考虑队伍连通性的导航方法，但是并没有考虑处理动态障碍物的问题。在包含动态障碍物的动态场景中考虑保持连通性的多机器人队伍导航，是一项更为困难的任务，控制模型需要根据更多的动态信息来做出合理安全的决策。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种用于复杂动态场景的基于深度强化学习的多机器人协同导航方法，使得机器人队伍在导航过程中，能够自主躲避场景中的静态障碍物以及做匀速直线运动的动态障碍物。

为解决上述技术问题，本发明采用的技术方案是：一种基于深度强化学习的多机器人协同导航方法，其中，在深度强化学习方法的环境和机器人队伍交互的框架基础上，结合有监督的深度学习方法，训练得到机器人队伍的综合策略；所述的综合策略包括控制策略π_c和辅助策略π_a，所述的控制策略根据观测值o计算得到机器人队伍的控制量a，用于控制机器人队伍完成避障导航主任务；所述的辅助策略根据观测值o计算得到辅助任务的结果u，并使u值不断逼近辅助任务的真实值y；所述的控制策略π_c和辅助策略π_a均由前端的表示信息提取模块和后端的输出模块构成，控制策略π_c和辅助策略π_a共享同一个表示信息提取模块，表示信息提取模块根据输入的观测值o计算得到表示信息F(o)，作为后续输出模块的共同输入。

本发明结合了多任务学习的方式，通过深度强化学习方法来训练得到控制策略，使得机器人队伍的几何中心能够高效地到达目标点，在这过程中队伍能够安全地躲避动态障碍物和静态障碍物，并且能够尽量保持队伍的连通性。同时，通过有监督的深度学习方法来训练得到辅助策略，判断机器人个体的感知范围内是否存在动态障碍物，辅助策略的输出结果能够反映控制策略的决策过程，增强控制策略模型的可解释性。

本发明的关键在于结合深度强化学习的试错方式和有监督的深度学习方式，训练一个综合策略模型，共同学习完成导航主任务与辅助任务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010544077.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种汽车灯调光系统及汽车
下一篇：一种电缆外护层故障定位培训装置及其使用方法

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的多机器人协同导航方法有效

专利文献下载