[发明专利]一种用于多无人机系统持续覆盖特定区域的深度强化学习方法有效
申请号: | 202011542223.2 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112580537B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 王楠;孙兆梅;牛轶峰;康瀚文;林弘;丁宇航;李雄 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06V20/17 | 分类号: | G06V20/17;G06V10/40;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 无人机 系统 持续 覆盖 特定 区域 深度 强化 学习方法 | ||
本发明公开了一种用于多无人机系统持续覆盖特定区域的深度强化学习方法,其步骤包括:步骤S1:建立待覆盖区域特征提取的深度卷积神经网络模型;步骤S2:基于强化学习actor‑critic网络,建立多无人机系统持续覆盖特定区域的深度强化学习模型,分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型;步骤S3:基于WLU,为多无人机决策系统设计个体奖励函数;步骤S4:基于强化学习策略梯度方法,训练步骤S1和S2中的神经网络模型。本发明具有鲁棒性能好、可扩展性强、覆盖周期短、协调性好等优点。
技术领域
本发明主要涉及到无人机协同控制技术领域,特指一种用于多无人机系统持续覆盖特定区域的深度强化学习方法。
背景技术
无人机集群区域覆盖是一个重要的研究问题,主要解决如何通过大规模无人机进行指定区域的覆盖,从而达到集群系统的最佳性能,如覆盖时间最短、覆盖率最高等。无人机集群区域覆盖具有十分广泛的应用,如地理测绘、搜索救援、灾情监视等。
早期覆盖规划的研究主要是针对单机覆盖指定区域的方法研究,如扫描方式、区域分割、和进程规划等。近年来,研究者侧重于多无人机协同区域覆盖,例如主要有维诺图法、虚拟力法、基于深度强化学习方法的覆盖算法、基于PS0的持续性覆盖控制方法、基于动态规划的覆盖路径规划算法、由单个无人机推广至多个无人机的启发式持续性覆盖方法等。
上述传统的方法中,有些方法只研究覆盖率相关问题,并没有考虑对区域的持续性覆盖和无人机之间的协调性;有些方法虽然研究了持续覆盖的问题,但并没有最小化持续覆盖的周期,且这些方法鲁棒性差、扩展性弱,且没有处理异构无人机的控制问题。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种鲁棒性能好、可扩展性强、覆盖周期短、协调性好的用于多无人机系统持续覆盖特定区域的深度强化学习方法。
为解决上述技术问题,本发明采用以下技术方案:
一种用于多无人机系统持续覆盖特定区域的深度强化学习方法,其步骤包括:
步骤S1:建立待覆盖区域特征提取的深度卷积神经网络模型;
步骤S2:基于强化学习actor-critic网络,建立多无人机系统持续覆盖特定区域的深度强化学习模型,分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型;
步骤S3:基于WLU,为多无人机决策系统设计个体奖励函数;
步骤S4:基于强化学习策略梯度方法,训练步骤S1和S2中的神经网络模型。
作为本发明方法的进一步改进:所述步骤S3中利用WLU方法,为每架无人机设置个体奖励。
作为本发明方法的进一步改进:所述步骤S4中,基于强化学习Actor-critic网络,利用确定性策略梯度方法训练步骤中S1和S2的神经网络模型,直至loss收敛时终止。
作为本发明方法的进一步改进:所述步骤S2中,将步骤S1提取的特征信息以序列形式输入双向循环神经网络模型的双向循环神经网络中。所有无人机共享网络参数,多无人机在持续覆盖区域时,单个无人机可以自由加入和结束覆盖任务而不影响整个系统的性能,即解决多无人机控制决策系统的可扩展性和鲁棒稳定性问题。
作为本发明方法的进一步改进:所述步骤S2中,将步骤S1提取的特征向量作为多无人机系统控制决策模型和动作值函数模型的输入,将无人机的航向和飞行距离作为控制决策模型的输出。
作为本发明方法的进一步改进:所述步骤S2中,扩展输出参数,用以实现异构无人机的控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011542223.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:笼状石墨烯材料及其制备方法
- 下一篇:热补丁还原方法、设备、存储介质及装置