[发明专利]一种基于多智能体强化学习的无人机网络协同快跳频方法有效
| 申请号: | 202110680187.4 | 申请日: | 2021-06-18 |
| 公开(公告)号: | CN113572548B | 公开(公告)日: | 2023-07-07 |
| 发明(设计)人: | 林艳;彭诺蘅;张一晋;李骏 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | H04B17/318 | 分类号: | H04B17/318;H04B17/345;H04B17/391;H04B1/715;H04W84/18 |
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 薛云燕 |
| 地址: | 210094 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 强化 学习 无人机 网络 协同 快跳频 方法 | ||
1.一种基于多智能体强化学习的无人机网络协同快跳频方法,其特征在于,包括以下步骤:
步骤1、输入无人机网络环境,其中每对无人机作为独立的智能体初始化自身Q表以及最优先验动作分布估计、互信息惩罚项系数和动作状态对出现次数;
步骤2、在当前时隙中,每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励;
步骤3、每对无人机观测环境的当前状态,再与其它无人机对交互当前状态下各个动作的Q值以得到全局Q值,进而根据互信息正则化soft Q-learning算法中的行为策略生成动作;
步骤4、每对无人机根据互信息正则化soft Q-learning算法中的更新方式来更新自身Q表以及各个参量;
步骤5、当达到训练回合的最大步数时,结束当前回合,开始下一回合,重新输入无人机网络环境,重复步骤2~步骤4;将连续的训练时间离散化为多个时隙,用正整数来表示第j个时隙,J表示一个正整数集合,J表示集合中的元素数量;假设网络中有M个无人机对和N个干扰机,分别用集合和来表示;
步骤2所述每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励,具体为:
(1)无人机对的动作
每对无人机的动作包括两部分,第一部分是选择自身下一时隙的传输信道,第二部分是预测其它无人机对下一时隙选择的传输信道,则第m个无人机对在时隙j时的动作表示为:
其中,表示第m个无人机对在时隙j+1时的传输信道;
是第m个无人机对预测其它无人机对在时隙j+1的传输信道向量;实际上,由于每对无人机只能控制自身下一时隙的传输信道,因此所有无人机对在时隙j+1时使用的传输信道向量表示为
(2)系统奖励
为了最大化所有无人机对的吞吐量,系统奖励设置为所有无人机对的总归一化吞吐量,即第m个无人机对在时隙j时的奖励表示为:
其中,是第m个无人机对在时隙j时的吞吐量,Ctrans是每对无人机的实际传输速率,tr是每个时隙内的传输时间;
步骤3所述每对无人机观测环境的当前状态,再与其它无人机对交互当前状态下各个动作的Q值以得到全局Q值,进而根据互信息正则化soft Q-learning算法中的行为策略生成动作,具体为:
(1)无人机对的状态
每对无人机的状态包括干扰机目前所干扰的信道和所有无人机对当前时隙使用的传输信道向量,因此第m个无人机对在时隙j时的状态表示为:
其中,表示每对无人机在时隙j时观测到的被干扰机所干扰的信道;fj表示所有无人机对在时隙j时使用的传输信道向量;
忽略观测过程中的虚警/漏警概率,且假定每对无人机都能够精确观测到当前有哪些信道被干扰机干扰,因此每个时隙中所有无人机对的状态相同;
(2)生成行为策略
互信息正则化的soft Q-learning算法在生成行为策略时采用类似于ε-贪婪策略的方法,且通过最优先验动作分布的估计ρ(a)和动态变化的互信息惩罚项系数β来调节探索与利用的权重;
探索时,智能体根据最优先验动作分布的当前估计采样得到下一时隙的动作,其中每个动作的概率是不同的;利用时,智能体直接选择概率最大的动作,但是此概率不仅取决于Q值,而且取决于最优先验动作分布的当前估计;因此,第m个无人机对在时隙j时的动作为:
其中,a表示动作,是一个变量,取值为无人机对在时隙下的动作;x是在[0,1]区间上服从均匀分布的随机数,ε是贪婪因子,且利用时的当前最优策略为:
步骤4所述每对无人机根据互信息正则化soft Q-learning算法中的更新方式来更新自身Q表以及各个参量,具体为:
(1)更新最优先验动作分布的估计ρ(a)
假设是第m个无人机对在时隙j内生成的策略,表示第m个无人机对在时隙j-1内生成后对最优先验动作分布的当前估计;由于在时隙j时,第m个无人机对根据动作向量中为自身选择的信道,因而对最优先验动作分布当前估计的更新方程如下:
其中αρ是学习率,且为均匀分布;
(2)更新互信息惩罚项的系数β
假设是第m个无人机对在时隙j时的互信息惩罚项的系数,更新公式为:
其中,c是一正常数,且
(3)更新Q表
Q表更新需要用到最优先验动作分布的估计ρ(a)和互信息惩罚项的系数β,第m个无人机对在时隙j时的Q表更新公式为:
其中是soft Q值的计算公式,γ是折扣因子;是第m个无人机对在时隙j时的学习率,随着第m个无人机对动作状态对的出现次数而变化,具体计算公式为:
其中ω是一正常数,是第m个无人机对在时隙j时动作状态对的出现次数。
2.根据权利要求1所述的基于多智能体强化学习的无人机网络协同快跳频方法,其特征在于,步骤1中所述输入无人机网络环境,其中无人机网络环境包含:
(1)网络模型:无人机对和干扰机均按照马尔可夫随机移动模型移动,且每对无人机中的接收机与发射机之间的距离受限;
(2)信道模型:考虑系统中存在有限个子频带,且信道功率增益由路径损耗和快衰落组成,所述路径损耗只考虑视距情况,快衰落指瑞利衰落;
(3)无线传输模型:当实际传输速率小于等于所选信道的可达速率时,吞吐量为此时隙传输时间内传输的比特个数;否则,吞吐量为0;
(4)干扰模型:设置干扰机的干扰类型为单音扫频干扰,不同干扰机所干扰的信道不会重叠,且干扰机可干扰信道集即为无人机对可用信道集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110680187.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子设备
- 下一篇:一种自紧式拉伸夹具及其工作方法





