[发明专利]基于DQN算法的雷达抗干扰智能决策方法有效
申请号: | 202110601114.1 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113341383B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 张娟;段燕辉;张林让;丁彤 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G01S7/36 | 分类号: | G01S7/36;G06N3/0464;G06N5/00 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dqn 算法 雷达 抗干扰 智能 决策 方法 | ||
1.一种基于DQN算法的雷达抗干扰智能决策方法,其特征在于,利用雷达已经识别的干扰信号构建雷达的当前状态,在边训练两个卷积神经网络边决策的情况下,借用DQN算法选择出最佳的抗干扰方法,该方法的步骤包括如下:
(1)干扰机发射一种有源干扰信号;
(2)雷达识别其所接收的有源信号的类型;
(3)构建两个卷积神经网络:
(3a)搭建一个由输入层、卷积层、池化层,输出层构成的估计值网络,网络权重参数w初始化为0.01,偏置参数初始化为0;
(3b)搭建一个由输入层、卷积层、池化层,输出层构成的目标值网络,网络权重参数w初始化为0.01,偏置参数初始化为0;
(4)生成雷达状态矩阵:
(4a)利用ε-贪婪方法,从抗干扰方法库中选择与已识别的有源干扰信号类型对应的抗干扰方法a;
(4b)根据已识别的有源干扰类型和抗干扰方法a在归一化增益值表中的对应关系,从抗干扰增益表中得到抗干扰有效值R;
(4c)将抗干扰方法a和抗干扰有效值R构成雷达状态矩阵St;
(5)构建损失函数如下:
其中,Loss表示损失函数,γ表示折扣因子,其取值范围为[0,1],max表示取最大值操作,q(st)表示将雷达状态矩阵St输入到估计值网络中输出的收敛矩阵,q(st+1)表示将下一个雷达状态矩阵St+1输入到目标值网络输出的收敛矩阵;
(6)训练估计值网络:
将雷达状态矩阵St输入到估计值网络中,使用梯度下降法,迭代更新网络参数,直到损失函数收敛为止,得到训练好的估计值网络;
(7)使用DQN算法选择最佳抗干扰方法;
将雷达状态矩阵St输入到训练好的估计值网络中,输出一个1×6大小的收敛矩阵,收敛矩阵中的每一列对应一种抗干扰方法的收敛值,从收敛矩阵中选择出一行中的最大收敛值,再从抗干扰方法库中选出与该最大收敛值对应的最佳的抗干扰方法at。
2.根据权利要求1所述的基于DQN算法的雷达抗干扰智能决策方法,其特征在于,步骤(1)中所述的有源干扰信号指的是扫频干扰信号、噪声调频干扰信号、密集假目标干扰信号、速度拖因干扰信号、距离速度联合拖引干扰信号中的任意一种干扰信号。
3.根据权利要求1所述的基于DQN算法的雷达抗干扰智能决策方法,其特征在于,步骤(4a)中所述的ε-贪婪方法指以ε大小的概率从抗干扰方法库中选择抗干扰方法,以1-ε的概率从抗干扰方法库中选择与已识别的有源干扰信号类型对应的抗干扰方法,ε为在(0,1)之间选取的数值。
4.根据权利要求1所述的基于DQN算法的雷达抗干扰智能决策方法,其特征在于,步骤(4a)中所述的抗干扰方法库包括捷变频、旁瓣匿影、自适应旁瓣相消、自适应波束形成、抗主瓣发射波形和空时自适应共6种抗干扰方法。
5.根据权利要求1所述的基于DQN算法的雷达抗干扰智能决策方法,其特征在于,步骤(4b)中所述的归一化增益值表是由多种抗干扰方法和多种有源干扰信号值组成,每个抗干扰有效值是每种抗干扰方法与其有源干扰信号一一对应的值,每个有效值的大小位于[0,1],归一化增益值表中的横坐标表示有源干扰类型,纵坐标表示抗干扰方法。
6.根据权利要求1所述的基于DQN算法的雷达抗干扰智能决策方法,其特征在于,步骤(5)中所述的下一个雷达状态矩阵St+1指的是使用最佳的抗干扰方法at和从归一化增益表中得到抗干扰有效值Rt构成的1×2大小的雷达状态矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110601114.1/1.html,转载请声明来源钻瓜专利网。