[发明专利]一种基于深度强化学习的固定翼无人机群集控制方法有效

申请号：	201910832120.0	申请日：	2019-09-04
公开（公告）号：	CN110502034B	公开（公告）日：	2022-08-09
发明（设计）人：	闫超;相晓嘉;王菖;牛轶峰;尹栋;吴立珍;陈紫叶	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	湖南兆弘专利事务所(普通合伙) 43008	代理人：	周长清
地址：	410073 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习固定无人机群集控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的固定翼无人机群集控制方法，其特征在于，步骤包括：

步骤S1、离线训练阶段：建立随机无人机动力学模型，基于竞争双重Q网络的Q函数评估之后，进行动作选择；所述竞争双重Q网络为D3QN网络；

步骤S2、在线执行阶段：构建竞争双重Q网络，并载入训练好的网络模型，所述网络模型和动作选择策略运行在僚机的机载电脑上，长机滚转动作由操控员给出，长机和僚机的自驾仪分别根据各自的滚转动作，直至完成飞行任务；

所述离线训练阶段包括如下步骤：

步骤S11、建立随机无人机动力学模型；考虑无人机在恒定高度飞行，动力学模型用简化的四自由度模型描述；在滚转、空速各个子状态引入随机性，建立随机无人机动力学模型；

步骤S12、基于竞争双重Q网络的Q函数评估；

步骤S13、动作选择；在离线训练阶段，所述动作选择策略使用结合示范教学的ε-greedy策略；即僚机以ε的概率选择最小Q值对应的动作，以1-ε的概率模仿长机动作；所述动作集合为无人机滚转角的变化量，即{+15°，0，-15°}；

所述步骤S12包括：

步骤S121、构建D3QN的主网络和目标网络，并随机初始化网络参数；

步骤S122、在与环境的不断交互中更新网络参数。

2.根据权利要求1所述基于深度强化学习的固定翼无人机群集控制方法，其特征在于，所述步骤S122包括：

步骤S1221：持续采集僚机与环境进行交互的历史经验，并存储到经验池中；所述交互过程为：智能体获取长机的状态信息及自身的状态信息，组成联合状态信息z输入到D3QN中，动作选择策略根据D3QN的输出选取僚机的滚转动作a_r；分别将长机的滚转动作随机产生以增加系统的随机性和僚机的滚转指令输入随机无人机动力学模型，得到长机和僚机下一时刻的状态z′和回报函数值g；

步骤S1222：从经验池中进行随机采样，批次更新D3QN的网络参数；每一时间步，应用Adam算法批次更新主网络参数；每隔一定的时间步，对目标网络参数进行软更新，即朝向主网络参数更新目标网络参数；

步骤S1223：当训练回合数达到预设条件时，结束所述更新过程，并保存D3QN的模型参数。

3.根据权利要求2所述基于深度强化学习的固定翼无人机群集控制方法，其特征在于，更新过程是以回合为单位进行的；在每一回合的更新过程中，随机初始化长机和僚机的初始状态；当每回合的时间步达到一定步数，该回合结束，重新开始下一回合的学习。

4.根据权利要求1-3中任意一项所述基于深度强化学习的固定翼无人机群集控制方法，其特征在于，所述步骤S2包括：

步骤S21、僚机通过传感器获取自身位置和姿态信息，并通过通信链路获取长机的位置和姿态信息，进而组成系统联合状态；

步骤S22、构建竞争双重Q网络，并载入训练好的网络模型；D3QN预测当前状态下所有待选动作的Q值，动作选择策略每隔1s更新僚机滚转指令，即当前状态下最小Q值所对应的动作；所述网络模型和动作选择策略运行在僚机的机载电脑上；长机滚转动作由操控员给出；

步骤S23、长机和僚机的自驾仪分别根据各自的滚转动作，由PID控制器完成底层闭环控制；

步骤S24、重复上述过程，直至完成飞行任务。

5.根据权利要求1-3中任意一项所述基于深度强化学习的固定翼无人机群集控制方法，其特征在于，所述D3QN网络由两个子网络组成：多层感知机和竞争网络；所述多层感知机包含三层全连接层，隐含节点数分别为64、256和128，激活函数均使用ReLU，其表达式为f(x)＝max(0,x)；所述竞争网络包含两个分支：状态值函数分支和优势函数分支；状态值函数分支和优势函数分支均包含两层全连接层；两分支第一全连接层的隐含节点数均为64，且均使用ReLU激活函数；状态值函数分支和优势函数分支第二全连接层的隐含节点数分别为1和3，分别表示当前状态的值函数和当前状态下3个待选动作的优势函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910832120.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于强化学习的固定翼无人机群集控制方法
下一篇：航拍相机的远程控制方法及无人机

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的固定翼无人机群集控制方法有效

专利文献下载