[发明专利]一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法有效

申请号：	202010544064.3	申请日：	2020-06-15
公开（公告）号：	CN111830971B	公开（公告）日：	2021-09-07
发明（设计）人：	林俊潼;成慧	申请（专利权）人：	中山大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	王晓玲
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于稀疏奖励信号学习机器人编队导航策略课程学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于机器人中的多移动机器人技术领域，更具体地，涉及一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法。当奖励信号稀疏时，基于深度强化学习的多机器人编队导航方法难以通过试错的方式学习出有效的导航策略。为了让多机器人编队在奖励信号稀疏的情况下依然能够学习出导航策略，本发明提出了一种基于融合相对表现和绝对表现的课程学习方法；该方法首先依据起始点到目标点的距离对场景进行分类，然后基于多机器人编队在不同类型场景中的相对表现和绝对表现来安排接下来要进行交互的场景类型。通过本发明所提出的课程学习方法，多机器人编队能够在奖励信号稀疏的情况下学习出有效的导航策略。

技术领域

本发明属于机器人中的多移动机器人技术领域，更具体地，涉及一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法。

背景技术

多机器人编队具有广泛的应用前景，比如说大规模搜救、测绘、农业植保等。当多机器人编队进行作业时，需要依赖多机器人编队导航来完成多机器人编队的运动。

专利CN2019103948935，公开了一种基于深度强化学习的端到端分布式多机器人编队导航方法，基于深度强化学习的多机器人编队导航方法能够通过试错的方式求解出优秀的导航策略，具有所需人工干预较少的特性。除此以外，所求解出的导航策略是端到端的导航策略，能够直接将原始感知信息映射到机器人的控制指令，而无须构建障碍物地图，因此具有较低的计算复杂度。然而，基于深度强化学习的多机器人编队导航方法依赖于稠密的奖励信号，也就是说要求环境对于机器人编队的每一个行为都有即时的反馈。但稠密的奖励信号往往需要利用专家知识进行奖励信号工程才能得到，是一个费时费力的工作。相比于稠密的奖励信号，稀疏的奖励信号具有所需专家知识较少的优势，可以比较容易地得到。然而，在稀疏奖励信号下，多机器人编队难以通过一般的基于深度强化学习的方法学习出有效的导航策略。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，提出了一种基于融合相对表现和绝对表现的课程学习方法；通过使用该方法，多机器人编队能够在稀疏奖励信号下学习出有效的导航策略。

为解决上述技术问题，本发明采用的技术方案是：一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其中，使用基于融合相对表现和绝对表现的课程学习来让多机器人编队在稀疏奖励信号的情况下仍然能够学习出有效的导航策略；所述的基于融合相对表现和绝对表现的课程学习，即随着训练的进行，逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习，通过这种方式，在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略，在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略。

当奖励信号稀疏时，基于深度强化学习的多机器人编队导航方法难以通过试错的方式学习出有效的导航策略。为了让多机器人编队在奖励信号稀疏的情况下依然能够学习出导航策略，本发明提出了一种基于融合相对表现和绝对表现的课程学习方法；该方法首先依据起始点到目标点的距离对场景进行分类，然后基于多机器人编队在不同类型场景中的相对表现和绝对表现来安排接下来要进行交互的场景类型。通过本发明所提出的课程学习方法，多机器人编队能够在奖励信号稀疏的情况下学习出有效的导航策略。本发明相比于一般的基于深度强化学习的多机器人编队导航方法，本发明在训练的过程中不仅会对多机器人编队的导航策略进行更新，而且会对环境端进行调整，通过课程更新来让环境端选择适合多机器人编队进行交互的场景。

进一步的，所述的课程学习包括课程设计和课程安排，所述的课程设计是对不同场景进行划分以此得到不同的课程，所述的课程安排是根据机器人编队的表现来安排接下来机器人编队进行交互的场景。

进一步的，所述的课程设计，根据机器人编队起始点到目标点的距离对不同场景进行分类，并且通过离散化和均匀采样相结合的方法来处理距离这一连续变量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010544064.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种管理线索信息的方法、存储介质和电子装置
下一篇：用于无人机的防暴弹投弹机构及投弹装置

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法有效

专利文献下载