[发明专利]一种基于迁移学习改进的PMADDPG多无人机任务决策方法有效

申请号：	202010691509.0	申请日：	2020-07-17
公开（公告）号：	CN111859541B	公开（公告）日：	2022-10-14
发明（设计）人：	李波;甘志刚;梁诗阳;高晓光;万开方;高佩忻	申请（专利权）人：	西北工业大学
主分类号：	G06F30/15	分类号：	G06F30/15;G06F30/27;G05D1/00;G06F111/04
代理公司：	西安凯多思知识产权代理事务所(普通合伙) 61290	代理人：	刘新琼
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于迁移学习改进 pmaddpg 无人机任务决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于迁移学习改进的PMADDPG多无人机任务决策方法，其特征在于，包括以下步骤：

步骤1：建立雷达威胁模型、导弹威胁模型和转弯半径约束模型

建立雷达威胁模型为：

其中，R_max为雷达在水平方向上最远的探测距离，U_R是无人机当前位置与雷达位置的距离；

建立导弹威胁模型为：

其中，U_M是无人机当前位置与导弹位置的距离，d_Mmax为导弹所能攻击的最远距离，d_Mmin为导弹的不可逃逸距离，一旦无人机与导弹的距离小于d_Mmin，则无人机一定会被击中；

建立转弯半径约束模型为：

R_uav≥R_min (3)

其中,R_min为无人机的最小转弯半径，R_uav为无人机的实际转弯半径；

步骤2：设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机；随机选择一个或多个威胁区,随机选择一个或多个目标区域，随机选择一架或多架无人机，将选择的威胁区、目标区域、无人机进行组合，构建一个无人机作战环境；重复上述随机选择和组合过程，构建G个无人机作战环境；

步骤3：设定作战环境中共有k架无人机、m个威胁区和k个目标区域；k架无人机分别为：UAV₁，UAV₂，...，UAV_k；定义第i架无人机的状态S_uavi包含当前时刻的速度矢量(v_uavi,x，v_uavi,y)和在作战环境中的坐标位置(p_uavi,x，p_uavi,y)；定义环境状态S_env包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置，其中第i个威胁区的坐标位置和威胁半径分别表示为(W_i，x，W_i，y)和r_i，y，第i个目标区域的坐标位置表示为(M_i，x，M_i，y)；k架无人机从起点出发，绕过作战环境中的威胁区，最终要分别到达k个目标区域；

步骤3-1：建立无人机的状态空间

每一架无人机的状态包括了自身的状态、其它无人机的状态和环境状态，无人机UAV₁在t时刻的状态定义为：

S_t，uav1＝(S_uav1，S_uav2，...，S_uavk，S_env) (4)

进一步第i架无人机在t时刻的状态表示为：

无人机在各个时刻的状态构成无人机的状态空间；

步骤3-2：建立无人机的动作空间

t时刻将无人机的状态输入无人机的控制网络，控制网络输出无人机动作策略，表示为无人机瞬时速度(v_x，v_y)，v_x表示无人机沿x轴方向的速度，v_y表示无人机沿y轴方向的速度；瞬时速度的大小限制在指定范围内，若超过指定范围的上限将瞬时速度设定为上限，若低于指定范围的下限将瞬时速度设定为下限；瞬时速度的方向受到无人机的转弯半径约束模型的约束，如果不符合转弯半径约束模型，则控制网络重新输出瞬时速度；

无人机经过Δt时刻后的位置更新为

式中，和分别表示无人机在t时刻的位置；

无人机在不同时刻的动作策略构成了二维向量表示的无人机动作空间；

步骤3-3：建立无人机奖励函数

定义威胁奖励函数R_f，如下式：

式中，D_W为无人机与威胁区的距离；

设定碰撞奖励函数R_p，如下式：

式中，D_dij为第i架无人机与第j架无人机之间的距离，D_d为无人机之间的最小安全距离；

设定距离奖励函数R_r，如下式：

式中，d_min是每个目标区域距最近无人机的距离之和，(p_uavi,x,p_uavi,y)表示第i架无人机在作战环境中的坐标位置，(M_j，x，M_j，y)表示第j个目标区域在作战环境中的坐标位置；

最终无人机奖励函数设定为：

R_i＝R_f+R_p+R_r (10)

式中，R_i表示第i架无人机的奖励值；

步骤4：构建与训练采用迁移学习的多无人机任务决策网络模型；

步骤4-1：加载步骤2中创建的任一无人机作战环境；

步骤4-2：无人机随机产生动作，无人机与威胁区、无人机与目标区域及无人机之间的相对位置发生变化，从而无人机作战环境发生改变；

步骤4-3：根据步骤3-3的无人机奖励函数(10)计算无人机随机产生动作后得到的奖励值，从而得到无人机状态转移数据；无人机状态转移数据包括无人机当前时刻状态、无人机动作策略、无人机奖励值、无人机下一时刻的状态；无人机状态转移数据表示为s_i,a_i,r_i,s_i+1，其中s_i表示无人机当前时刻的状态，a_i表示当前时刻无人机动作策略，r_i当前时刻无人机奖励值，s_i+1表示无人机下一时刻的状态；

步骤4-4：每架无人机在每一时刻都不断地产生状态转移数据并存储在自身的数据存储空间，每一架无人机的状态转移数据存储空间定义为一个经验池，经验池中的每个状态转移数据称为一个经验；

步骤4-5：采用优先经验回放的经验池进行无人机控制网络更新；

每架无人机的控制网络包含两个网络：Actor网络和Critic网络；Actor网络和Critic网络也都具备双网络结构，拥有各自的target网络和eval网络；

步骤4-5-1：初始化网络参数，创建经验池B和经验池M，从每架无人机的经验池中取出不同时刻的H个经验放入经验池B；

步骤4-5-2：计算经验池B中每个经验的优先级P：

L(i)＝P_s-αT (12)

其中，L(i)表示i时刻Critic网络损失，C为时刻总数，T为抽取经验次数，P_s为经验顺序，α为经验抽取次数对经验优先级影响的权重，α∈(0，1)；β为优先级的放大次数，L^β(i)表示i时刻经过优先放大的Critic网络损失，β∈(0，1)；

步骤4-5-3：随机抽取经验池B中的经验，如果抽取的经验优先级P小于等于预设的优先级阈值，则将该经验放入经验池M中；重复上述抽取过程，直到经验池M被装满；

步骤4-5-4：从经验池M中随机抽取若干个经验，组成经验包＜S,A,R,S′，其中S和S′分别是抽取的若干个经验中的无人机当前时刻状态集合和下一时刻状态集合，A是抽取的若干个经验中当前时刻无人机动作策略集合，R是抽取的若干个经验中当前时刻无人机奖励值集合，下一时刻状态集合S′由当前时刻状态集合S采取集合A中的动作策略得到；

步骤4-5-5：将S′输入到每一架无人机的Actor网络中得到下一时刻所有无人机动作策略集合A′,随后将A′和S′一起输入到每一架无人机的Critic网络中，得到每一架无人机对下一时刻估计的目标Q值；

步骤4-5-6：定义Critic网络的损失函数为：

其中，θ^Q是Critic网络中eval网络的权重，N表示训练时抽取经验数；Q(s_i，a_i|θ^Q)表示以s_i和a_i为输入时，Critic网络中eval网络的输出Q值；

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′) (14)

式中，γ是折扣因子，θ^Q′是Critic网络中target网络的权重，θ^μ′是Actor网络中target网络的权重，μ′表示Actor网络中target网络的策略；μ′(s_i+1|θ^μ′)表示以s_i+1为输入时，Actor网络中target网络的输出；Q′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)表示以s_i+1和μ′(s_i+1|θ^μ′)为输入时，Critic网络中target网络的输出；