[发明专利]一种基于深度强化学习的信息聚合短波选频方法在审

申请号：	201811122164.6	申请日：	2018-09-26
公开（公告）号：	CN109309539A	公开（公告）日：	2019-02-05
发明（设计）人：	徐煜华;刘鑫;李洋洋;程云鹏;赵磊;张晓博	申请（专利权）人：	中国人民解放军陆军工程大学
主分类号：	H04B17/382	分类号：	H04B17/382;H04W72/08;G06N3/08
代理公司：	南京理工大学专利中心 32203	代理人：	薛云燕
地址：	210007 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习短波通信短波选频信道增益信息聚合高动态互扰输入神经网络输出短波信道复杂环境通信干扰网络训练信道选择最优解信道网络预测转化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的信息聚合短波选频方法，其特征在于，包括以下步骤：

步骤1，将高动态的短波环境下的选频问题，转化为高动态短波通信环境下的信道增益、用户间的互扰和环境中的干扰三个子问题；

步骤2，对于高动态短波通信环境下的信道增益问题，通过神经网络的预测功能，把短波信道情况输入神经网络，对短波下一个时刻的信道增益进行预测，并将输出记为G；

步骤3，对于用户间的互扰和环境中的干扰问题，通过一个深度强化学习网络训练得到在互扰环境下，预测下一个时刻可以选择信道的情况值，并将输出记为R；

步骤4，把训练得到的G与R输入到信息聚合深度强化学习网络里，通过数据的训练，深度强化学习网络得到下一个时刻信道选择的最优解；

步骤5，循环步骤3～步骤4，深度强化学习网络和信息融合深度强化学习网络两个网络同步进行更新，用户通过探索学习进行策略选择，直至所有用户的抗干扰策略实现收敛，或者达到设定的迭代次数。

2.根据权利要求1所述的基于深度强化学习的信息聚合短波选频方法，其特征在于，步骤2所述的通过神经网络的预测功能，把短波信道情况输入神经网络，对短波下一个时刻的信道增益进行预测，并将输出记为G，具体如下：

将下一时刻的信道增益值作为目标函数

其中Front(G')表示矩阵G'最靠前的列向量，G'是在以矩阵G为基础上预测的下一时刻的信道增益矩阵；为目标函数，上标Y与其他子网络进行区分，下标i与代表是在i次迭代中的目标函数；

基于历史信道增益预测下一时刻的信道增益，网络的损失函数L^P定义为：

其中，是第i次迭代中CGPN的网络权值，而b_q是探测信道的索引，随着q增大，把索引内的探测过的信道参数导入损失函数进行计算；L上标的P是把几个网络的损失函数作区分，PN指可探测信道数量，是指对信道情况的估计函数。

3.根据权利要求1所述的基于深度强化学习的信息聚合短波选频方法，其特征在于，步骤3所述的对于用户间的互扰和环境中的干扰问题，通过一个深度强化学习网络训练得到在互扰环境下，预测下一个时刻可以选择信道的情况值，并将输出记为R，具体如下：

引入抗干扰强化学习子网络，R是环境状态，a是选择的通信信道，即时奖励u_k的定义为：

u_k＝μδ(β_k≥β_th)-L_Jδ(Jammed)-L_Iδ(Interferenced)

其中，β_k是用户k的收到信号的信噪比，β_th为信噪比门限；δ(β_k≥β_th)是指在用户接受信号信噪比大于信噪比门限值时δ(β_k≥β_th)＝1，其他情况δ(β_k≥β_th)＝0；μ是用户收到信噪比大于门限的奖励参数；L_J和L_I分别为干扰、互扰时造成的通信损失参数，由环境中的干扰和互扰情况决定；

同理δ(Jammed)函数当用户的通信信号被干扰时δ(Jammed)＝1、其他时刻δ(Jammed)＝0，δ(Interferenced)函数在用户被互扰时δ(Interferenced)＝1，其他时刻δ(Interferenced)＝0；信道增益网络的目标函数为：

其中，为抗干扰和互扰网络在第i-1次迭代时的网络参数，R是环境参数，R'为用户下一个时刻环境参数，a为用户在频谱上的决策，a'是下一时刻的用户决策；γ∈(0,1)是权值参数；为i-1时刻环境状态下动作的评价函数；

抗干扰深度强化学习网络L^A为：

其中，是指抗干扰学习网络在i时刻的网络参数，是信道增益网络的目标函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学，未经中国人民解放军陆军工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811122164.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种频谱感知方法、装置、设备、系统及存储介质
下一篇：一种防干扰的2.4G无线MCU仿真器及仿真方法

同类专利

专利分类

H 电学

H04 电通信技术
H04B 传输
H04B17-00 监控；测试
H04B17-02 .中继系统的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的信息聚合短波选频方法在审

专利文献下载