[发明专利]一种基于迁移学习改进的PMADDPG多无人机任务决策方法有效
申请号: | 202010691509.0 | 申请日: | 2020-07-17 |
公开(公告)号: | CN111859541B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 李波;甘志刚;梁诗阳;高晓光;万开方;高佩忻 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/27;G05D1/00;G06F111/04 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 改进 pmaddpg 无人机 任务 决策 方法 | ||
1.一种基于迁移学习改进的PMADDPG多无人机任务决策方法,其特征在于,包括以下步骤:
步骤1:建立雷达威胁模型、导弹威胁模型和转弯半径约束模型
建立雷达威胁模型为:
其中,Rmax为雷达在水平方向上最远的探测距离,UR是无人机当前位置与雷达位置的距离;
建立导弹威胁模型为:
其中,UM是无人机当前位置与导弹位置的距离,dMmax为导弹所能攻击的最远距离,dMmin为导弹的不可逃逸距离,一旦无人机与导弹的距离小于dMmin,则无人机一定会被击中;
建立转弯半径约束模型为:
Ruav≥Rmin (3)
其中,Rmin为无人机的最小转弯半径,Ruav为无人机的实际转弯半径;
步骤2:设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机;随机选择一个或多个威胁区,随机选择一个或多个目标区域,随机选择一架或多架无人机,将选择的威胁区、目标区域、无人机进行组合,构建一个无人机作战环境;重复上述随机选择和组合过程,构建G个无人机作战环境;
步骤3:设定作战环境中共有k架无人机、m个威胁区和k个目标区域;k架无人机分别为:UAV1,UAV2,...,UAVk;定义第i架无人机的状态Suavi包含当前时刻的速度矢量(vuavi,x,vuavi,y)和在作战环境中的坐标位置(puavi,x,puavi,y);定义环境状态Senv包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置,其中第i个威胁区的坐标位置和威胁半径分别表示为(Wi,x,Wi,y)和ri,y,第i个目标区域的坐标位置表示为(Mi,x,Mi,y);k架无人机从起点出发,绕过作战环境中的威胁区,最终要分别到达k个目标区域;
步骤3-1:建立无人机的状态空间
每一架无人机的状态包括了自身的状态、其它无人机的状态和环境状态,无人机UAV1在t时刻的状态定义为:
St,uav1=(Suav1,Suav2,...,Suavk,Senv) (4)
进一步第i架无人机在t时刻的状态表示为:
无人机在各个时刻的状态构成无人机的状态空间;
步骤3-2:建立无人机的动作空间
t时刻将无人机的状态输入无人机的控制网络,控制网络输出无人机动作策略,表示为无人机瞬时速度(vx,vy),vx表示无人机沿x轴方向的速度,vy表示无人机沿y轴方向的速度;瞬时速度的大小限制在指定范围内,若超过指定范围的上限将瞬时速度设定为上限,若低于指定范围的下限将瞬时速度设定为下限;瞬时速度的方向受到无人机的转弯半径约束模型的约束,如果不符合转弯半径约束模型,则控制网络重新输出瞬时速度;
无人机经过Δt时刻后的位置更新为
式中,和分别表示无人机在t时刻的位置;
无人机在不同时刻的动作策略构成了二维向量表示的无人机动作空间;
步骤3-3:建立无人机奖励函数
定义威胁奖励函数Rf,如下式:
式中,DW为无人机与威胁区的距离;
设定碰撞奖励函数Rp,如下式:
式中,Ddij为第i架无人机与第j架无人机之间的距离,Dd为无人机之间的最小安全距离;
设定距离奖励函数Rr,如下式:
式中,dmin是每个目标区域距最近无人机的距离之和,(puavi,x,puavi,y)表示第i架无人机在作战环境中的坐标位置,(Mj,x,Mj,y)表示第j个目标区域在作战环境中的坐标位置;
最终无人机奖励函数设定为:
Ri=Rf+Rp+Rr (10)
式中,Ri表示第i架无人机的奖励值;
步骤4:构建与训练采用迁移学习的多无人机任务决策网络模型;
步骤4-1:加载步骤2中创建的任一无人机作战环境;
步骤4-2:无人机随机产生动作,无人机与威胁区、无人机与目标区域及无人机之间的相对位置发生变化,从而无人机作战环境发生改变;
步骤4-3:根据步骤3-3的无人机奖励函数(10)计算无人机随机产生动作后得到的奖励值,从而得到无人机状态转移数据;无人机状态转移数据包括无人机当前时刻状态、无人机动作策略、无人机奖励值、无人机下一时刻的状态;无人机状态转移数据表示为si,ai,ri,si+1,其中si表示无人机当前时刻的状态,ai表示当前时刻无人机动作策略,ri当前时刻无人机奖励值,si+1表示无人机下一时刻的状态;
步骤4-4:每架无人机在每一时刻都不断地产生状态转移数据并存储在自身的数据存储空间,每一架无人机的状态转移数据存储空间定义为一个经验池,经验池中的每个状态转移数据称为一个经验;
步骤4-5:采用优先经验回放的经验池进行无人机控制网络更新;
每架无人机的控制网络包含两个网络:Actor网络和Critic网络;Actor网络和Critic网络也都具备双网络结构,拥有各自的target网络和eval网络;
步骤4-5-1:初始化网络参数,创建经验池B和经验池M,从每架无人机的经验池中取出不同时刻的H个经验放入经验池B;
步骤4-5-2:计算经验池B中每个经验的优先级P:
L(i)=Ps-αT (12)
其中,L(i)表示i时刻Critic网络损失,C为时刻总数,T为抽取经验次数,Ps为经验顺序,α为经验抽取次数对经验优先级影响的权重,α∈(0,1);β为优先级的放大次数,Lβ(i)表示i时刻经过优先放大的Critic网络损失,β∈(0,1);
步骤4-5-3:随机抽取经验池B中的经验,如果抽取的经验优先级P小于等于预设的优先级阈值,则将该经验放入经验池M中;重复上述抽取过程,直到经验池M被装满;
步骤4-5-4:从经验池M中随机抽取若干个经验,组成经验包<S,A,R,S′,其中S和S′分别是抽取的若干个经验中的无人机当前时刻状态集合和下一时刻状态集合,A是抽取的若干个经验中当前时刻无人机动作策略集合,R是抽取的若干个经验中当前时刻无人机奖励值集合,下一时刻状态集合S′由当前时刻状态集合S采取集合A中的动作策略得到;
步骤4-5-5:将S′输入到每一架无人机的Actor网络中得到下一时刻所有无人机动作策略集合A′,随后将A′和S′一起输入到每一架无人机的Critic网络中,得到每一架无人机对下一时刻估计的目标Q值;
步骤4-5-6:定义Critic网络的损失函数为:
其中,θQ是Critic网络中eval网络的权重,N表示训练时抽取经验数;Q(si,ai|θQ)表示以si和ai为输入时,Critic网络中eval网络的输出Q值;
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′) (14)
式中,γ是折扣因子,θQ′是Critic网络中target网络的权重,θμ′是Actor网络中target网络的权重,μ′表示Actor网络中target网络的策略;μ′(si+1|θμ′)表示以si+1为输入时,Actor网络中target网络的输出;Q′(si+1,μ′(si+1|θμ′)|θQ′)表示以si+1和μ′(si+1|θμ′)为输入时,Critic网络中target网络的输出;
以yi为训练标签,通过back-propagation算法更新Actor网络中eval网络权重;
步骤4-5-7:采用off-policy方法进行训练和更新Critic网络中eval网络的权重;
步骤4-5-8:每间隔固定时间通过soft-update算法更新Critic网络中target网络和Actor网络中target网络的权重;
步骤4-6:重复步骤4-2到步骤4-5,当达到设定的训练次数时停止训练;
步骤4-7:从步骤2中创建的G个无人机作战环境中选取未训练的无人机作战环境进行加载,重复步骤4-1到4-6,直到加载完G个作战环境后结束训练;
步骤5:使用训练完成的多无人机任务决策网络模型实现多架无人机在动态作战环境下面对多目标时的任务决策。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010691509.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于纸浆造纸的设备
- 下一篇:一种基于磁性复合流体的抛光方法及抛光装置