[发明专利]一种用于多无人机系统持续覆盖特定区域的深度强化学习方法有效

申请号：	202011542223.2	申请日：	2020-12-23
公开（公告）号：	CN112580537B	公开（公告）日：	2022-06-21
发明（设计）人：	王楠;孙兆梅;牛轶峰;康瀚文;林弘;丁宇航;李雄	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06V20/17	分类号：	G06V20/17;G06V10/40;G06V10/82;G06N3/04;G06N3/08
代理公司：	湖南兆弘专利事务所(普通合伙) 43008	代理人：	周长清
地址：	410073 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于无人机系统持续覆盖特定区域深度强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，步骤包括：

步骤S1：建立待覆盖区域特征提取的深度卷积神经网络模型；

步骤S2：基于强化学习actor-critic网络，建立多无人机系统持续覆盖特定区域的深度强化学习模型，分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型；具体为，将步骤S1提取的特征信息以序列形式输入双向循环神经网络模型的双向循环神经网络中；

步骤S3：基于WLU，为多无人机决策系统设计个体奖励函数；

步骤S4：基于强化学习策略梯度方法，训练步骤S1和S2中的神经网络模型。

2.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S3中利用WLU方法，为每架无人机设置个体奖励。

3.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S4中，基于强化学习Actor-critic网络，利用确定性策略梯度方法训练步骤中S1和S2的神经网络模型，直至loss收敛时终止。

4.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S2中，将步骤S1提取的特征向量作为多无人机系统控制决策模型和动作值函数模型的输入，将无人机的航向和飞行距离作为控制决策模型的输出。

5.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S2中，扩展输出参数，用以实现异构无人机的控制。

6.根据权利要求1-3中任意一项所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S2中，建立双向循环网络actor网络、critic网络，所述actor网络以步骤S1中提取的特征向量为输入，以无人机的控制输出——航向、飞行距离为输出；所述critic网络以步骤S1中提取的特征向量及actor网络输出为输入，以Q值为输出。

7.根据权利要求6所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，在步骤S1中，覆盖区域指定为矩形区域，建立提取特征的卷积神经网络模型时将区域划分为正方形网格，定义每个网格的覆盖周期、定义每个网格与无人机的相对距离、相对角度，以覆盖周期、相对距离、角度组成的特征矩阵为卷积神经网络的输入，经过若干卷积层池化层，输出待覆盖区域的特征向量。

8.根据权利要求7所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，在所述actor网络中，利用vggNet提取待覆盖区域的特征，将提取的特征输入双向循环神经网络，最后得到无人机的控制输出，即无人机的航向及飞行距离。

9.根据权利要求8所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S4的步骤包括：

步骤S401：将步骤S1提取特征的vggNet合并入actor、critic网络；

步骤S402：随机初始化online actor网络、online critic网络的参数；

步骤S403：建立target actor网络、target critic网络，并用online网络参数对其初始化；

步骤S404：初始化经验池；

步骤S405：随机初始化无人机位置，初始化网格覆盖周期，获取初始feature maps¹；

步骤S406：训练网络，迭代执行下述步骤S407-步骤S411；

步骤S407：通过online actor网络得到一个动作a(s^t)，加上OrnsteinUhlenbeck扰动N得到一个探索的动作a(s^t)+N；

步骤S408：无人机执行动作a(s^t)+N，得到相应的奖励r＝(r₁，r₂，...，r_n)和下一个feature map s^t+1，并将(s^t，a^t，r^t，s^t+1)存储到经验池B；

步骤S409：从经验池B中选取小批量的数据，通过online critic网络、online actor网络计算同时利用Bellman方程及target actor网络、target critic网络估计Q，得到：

沿着平方误差：的负梯度方向更新online critic网络参数；