[发明专利]一种基于贝叶斯Q学习的无人机集群网络智能跳频方法有效
申请号: | 202110596287.9 | 申请日: | 2021-05-30 |
公开(公告)号: | CN113382381B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 林艳;康雅洁;张一晋;李骏;彭诺蘅;陶奕宇 | 申请(专利权)人: | 南京理工大学 |
主分类号: | H04W4/40 | 分类号: | H04W4/40;H04W4/02;H04B1/715 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 薛云燕 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 学习 无人机 集群 网络 智能 方法 | ||
1.一种基于贝叶斯Q学习的无人机集群网络智能跳频方法,其特征在于,具体步骤为:
步骤1:初始化贝叶斯Q学习算法参数;
步骤2:无人机集群采用Myopic-VPI决策策略选择通信信道;
步骤3:无人机观测当前信道是否被干扰,同时获取干扰机和其他无人机的位置信息,计算与基站通信的上行链路信息传输速率;
步骤4:无人机根据上一时隙与当前时隙所选择的信道进行比对,计算切换信道所需开销;
步骤5:结合信息传输速率和跳频开销的折中性能,采用矩更新方式更新Q表中相应状态动作对所对应的Q值分布;
步骤6:重复步骤2至步骤5,直至完成一次通信任务;
步骤7:重复步骤6,直至系统平均奖励值收敛,完成本地训练;
步骤1中贝叶斯Q学习算法参数包括信息价值增益VPI系数χ、折扣因子γ;
步骤2中无人机集群采用Myopic-VPI决策策略选择通信信道,具体方法为:
步骤2-1:无人机集群对信道环境进行监测,获取敌方干扰机数量、干扰模式这些信息;
步骤2-2:根据监测所得信息,无人机集群共同维护一张Q表,Q表中储存着每种信道状态和信道选择动作对所对应的Q值分布;根据MDP建模,将当前状态s,所选动作a所对应的Rs,a值作为一个满足高斯分布的随机变量,均值μs,a为最佳策略下的Q值,即μs,a=Q*(s,a),方差为σs,a,精度τs,a用方差表示为其中给定精度τ值时μ的条件分布是均值为μ0,精度为λ0τ的高斯分布,λ0是高斯伽马分布中的另一参数;τ的边际分布是参数为α0和β0的伽马分布;则对于参数未知的高斯分布的变量Rs,a,参数的先验p(μs,a,τs,a)服从高斯伽马分布,即p(μs,a,τs,a)~NG(μ0,λ0,α0,β0);因此Q表中实际储存的是四元组超参数ρ=μ0,λ0,α0,β0所表示的高斯-伽马分布;
步骤2-3:当每一次无人机集群需要选择通信信道时,智能体按照Myopic-VPI决策策略进行通信信道的选择;
步骤3中无人机观测当前信道是否被干扰,同时获取干扰机和其他无人机的位置信息,计算与基站通信的上行链路信息传输速率,具体如下:
记系统中通信信道总数C,无人机数量N,干扰机数量J,基站、无人机和干扰机的高度分别为HB,HU,HJ,无人机和干扰机的发送功率分别为PU,PJ,另外GU指无人机与基站之间的信道增益,GJ指干扰机和无人机之间的信道增益,上行链路信道考虑小尺度衰落和路径损耗其中gi(j)表示地面基站和无人机,或地面基站和干扰机之间的瞬时功率增益,g是一个独立相同的分布瑞利衰落随机变量,g~exp(1);Ai(j)为单位距离无人机或干扰机路径损耗,αi(j)为无人机或干扰机的路径损耗因子,di(j)是地面基站和无人机或干扰机之间的欧几里得距离;此外σ表示环境噪声均方值;
设置第n个无人机信息传输速率奖励值为
表示第n个无人机基站上行链路的实际信息传输速率与理想无干扰情况时最大信息传输速率之比;
其中,
(1)当第n个无人机所占用信道被第j个干扰机干扰时,ρn[j]=1,否则为ρn[j]=0;
(2)当第n个无人机所占用信道被第i个无人机干扰时,κn[i]=1,否则为κn[i]=0;
步骤4中无人机根据上一时隙与当前时隙所选择的信道进行比对,计算切换信道所需开销,具体如下:
设置第n个无人机的跳频开销为
rλ[n]=-λδ[n]
表示无人机更换信道进行通信时所对应的能量消耗;
当第n个无人机相较于上一时刻变更频道时,δ[n]=1,否则δ[n]=0,λ为无人机单次跳频所需开销;
步骤5中结合信息传输速率和跳频开销的折中性能,采用矩更新方式更新Q表中相应状态动作对所对应的Q值分布,具体如下:
记rC[n]为第n个无人机的信息传输速率奖励,rλ[n]为第n个无人机的跳频开销,计算当前时隙奖励为平均每个无人机与基站上行链路的实际信息传输速率与理想无干扰情况时最大信息传输速率之比和跳频开销的折中性能;
其中m1表示信息传输速率奖励的权值,m2表示跳频开销的权值;
根据奖励值对Q值的高斯-伽玛分布进行矩更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110596287.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种瓦楞纸板的一体化制造输送装置
- 下一篇:构建认知障碍智能预测方法