[发明专利]一种面向抗干扰的雷达频率捷变方法在审
申请号: | 202011014194.2 | 申请日: | 2020-09-24 |
公开(公告)号: | CN112198484A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 刘一民;黄天耀;王希勤;刘鹏飞 | 申请(专利权)人: | 清华大学 |
主分类号: | G01S7/36 | 分类号: | G01S7/36 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 抗干扰 雷达 频率 方法 | ||
1.一种面向抗干扰的雷达频率捷变方法,其特征在于,包括以下步骤:
(1)初始化;
(1-1)构建雷达频率选择估值网络Qeval,表达式如下:
qt,ht=Qeval(ot,ht-1;θ)
其中,θ为Qeval的网络参数,ot是雷达在t时间步时的观测;在Qeval中,ht-1是雷达对于t-1时间步及以前的记忆向量,qt是t时间步雷达对于各个可选择频率的评估向量,ht是雷达对于t时间步及以前的记忆向量;θ的初始值为随机产生;
将初始的估值网络Qeval作为当前估值网络Qeval;
(1-2)构建雷达频率选择目标网络Qtarget,表达式如下:
vt,
其中,Qtarget与Qeval结构相同;在Qtarget中,令t时间步雷达对于各个可选择频率的评估向量记为vt,雷达对于t-1时间步及以前的记忆向量记为gt-1,雷达对于t时间步及以前的记忆向量记为gt;Qtarget的参数为的初始值是独立于θ随机产生的;
将初始的目标网络Qtarget作为当前目标网络Qtarget;
(1-3)创建一个初始为空的内存D,内存大小为LD;初始化时间步t=1;初始化Qeval的记忆向量h0为全零向量;
(2)观测获取;
构建t时间步雷达获得的观测:
ot=[ft-1,It-1,rt-1,dt,pt],
其中,ft-1是雷达在t-1时间步选择的频率对应的索引值,记雷达可选择的频率共有M种,分别以1,2,...,M标记为对应的索引值,即ft-1∈{1,2,...,M};其中,f0为从{1,2,...,M}中随机选择的一个索引值;It-1是雷达在t-1时间步估计的接收干扰功率,令I0=0;rt-1是雷达在t-1时间步抗干扰效能的即时评估,令r0=0;当t≥2时,rt-1的计算表达式如下:
其中,是功率阈值;
是t时间步雷达对离自身最近的N个目标的距离预测值;pt是雷达自身在t时间步的位置;
其中,dt的预测方法如下:
若雷达在t-1时间步所受干扰功率小于阈值在t-1时间步,雷达发射信号获得离自身最近的N个目标的距离测量值:以及每个目标在t-1时间步相应的速度测量值:其中,为t-1时间步雷达发射信号获得离自身最近第n个目标的距离测量值;为离雷达最近第n个目标在t-1时间步的速度测量值,1≤n≤N;L0,A0均为全零向量;
则t时间步雷达对离自身最近的第n个目标距离预测值为:
其中,Δt是相邻两个时间步间的时间间隔;
若雷达在t-1时间步所受干扰功率大于等于阈值则t时间步雷达对离自身最近的第n个目标距离预测值为:
(3)频率选择与记忆更新;
将ot和ht-1输入当前估值网络Qeval:
当前估值网络Qeval输出对应的qt和ht,其中:
其中,表示雷达在t时间步如果采取频率i将会获得的抗干扰效能的评估值;
雷达按照如下方式选择t时间步的频率,得到t时间步的雷达频率捷变结果:
其中,ò∈(0,1)是探索概率;
(4)经历构建与储存;
对t进行判定:
若t<2,则令t=t+1,然后重新返回步骤(2);
若t≥2,则构建t时间步的经历:et=[ot-1,ht-2,ft-1,rt-1,ot,ht-1],然后将经历et储存到内存D中,令t=t+1,然后重新返回步骤(2);直至当t≥LB+1时,构建t时间步的经历et并将et储存到内存D后,进入步骤5);其中,若t>LD+1时,则将从内存D中移除,构建t时间步的经历et并将et储存到内存D中,然后进入步骤5);LB为设定的训练集的经历数目,1≤LB≤LD;
(5)训练集构建;
从内存D中随机截取LB个连续经历,构建一个训练集B:
其中,τ为该训练集的起始时间步;若LB+1≤t≤LD+1,则τ从[2,t-LB+1]范围内的整数中随机选取;若t>LD,则τ从[2,LD-LB+2]范围内的整数中随机选取;
(6)构造代价函数;
对于步骤(5)构建的训练集中的每一个经历et∈B,τ≤t≤τ+LB-1,计算对应的目标值yt:
其中,γ∈[0,1]是衰减系数;
表示通过当前目标网络Qtarget计算的雷达在t时间步如果采取频率i将会获得的抗干扰效能的评估值;的计算方法如下:
令初始记忆向量gτ-1=hτ-1,对于每个时间步t,τ≤t≤τ+LB-1,将该时间步对应的观测ot和记忆向量gt-1输入到当前目标网络Qtarget,当前目标网络Qtarget输出t时间步雷达对于各个可选择频率的评估向量vt和雷达对于t时间步及以前的记忆向量gt;其中,
构造代价函数:
(7)网络参数更新;
利用梯度下降对当前估值网络Qeval的网络参数θ进行更新:
其中,α∈(0,1)为更新步长;更新后,令t←t+1,然后重新回到步骤(2);
其中,每隔设定的时间步数T时,对当前目标网络Qtarget的网络参数进行更新,将当前Qeval的网络参数θ赋值给当前目标网络Qtarget得到更新后的当前目标网络Qtarget,即当mod(t,T)=0时,其中,mod(t,T)表示求t对T的余数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011014194.2/1.html,转载请声明来源钻瓜专利网。