[发明专利]一种基于强化学习的无人机网络发射功率分配方法及装置有效
申请号: | 202110505367.9 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113316239B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 张海君;李亚博;唐书和;唐睿卿;隆克平;高鹏;李福昌 | 申请(专利权)人: | 北京科技大学 |
主分类号: | H04W52/24 | 分类号: | H04W52/24;H04W52/38;G06N3/08;G06F17/11;H04W84/06 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;邓琳 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 无人机 网络 发射 功率 分配 方法 装置 | ||
1.一种基于强化学习的无人机网络发射功率分配方法,其特征在于,包括以下步骤:
S1、初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;
所述步骤S1包括:
初始化无人机、用户以及神经网络的各项参数以及无人机的最大发射功率Pmax,网络参数θ和θ′,用户动作、状态、重放经验池D;
S2、初始化价值函数和当前网络状态的Q值;
所述步骤S2包括:
定义Q值函数为:Q(I(z),D(z),θ),其中I(z),D(z),θ分别表示当前网络系统的状态,当前选取的动作和当前网络系统的权重参数;
根据无人机网络当前状态的资源分配策略所产生的Q值大小开始进行动作选取环节;
在Q-learning中,Q值的更新策略为:
其中Q'表示下一个状态的Q值,γn表示第n次的折损因子,rz表示无人机网络中第z个状态中对用户的速率回报;而对于θ,则定义功率损失为:
Li(θi)=E(Q'(I(z),D(z);θi)-Q(I(z),D(z);θi))2
其中,将满足使得Li(θi)最小化的θi更新为θi+1;
S3、与环境交互接收奖励反馈并计算采取当前动作的Q值;
所述步骤S3包括:
根据香农公式,第k个用户的信道容量为:
Rk=Wlog2(1+SINRk)
其中W表示在无人机网络里的用户带宽,是一个常量,SINRk表示第k个用户的信噪比,表示如下:
其中pk表示第k个用户的功率分配系数,wk表示第k个用户的信道增益,其遵循无人机的常用LoS信道模型,σk表示第k个用户的加性白高斯噪声功率,αk表示相应的噪声功率系数;
则系统的能效即目标函数值为:
S4、根据反馈得到的奖励的最大值选取最优动作;
所述步骤S4包括:
系统获取即时奖励并更新参数,系统获得即时奖励的约束:
所有用户的功率和小于无人机发射的最大功率Pmax;
对于约束条件:只需判断无人机的最大功率与它服务的所有用户的总功率之和之间的大小即可:
第k个用户的即时奖励为:
S5、更新系统的下一状态并存储至经验池中;
所述步骤S5包括:
系统获得的总即时奖励为:
根据即时奖励的最大值选取对应的动作d(k),并循环进行积累经验;
S6、判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;
所述步骤S6包括:
根据存储的经验数量判断是否进行深度强化学习,若存储的经验数量满足预期值,则开始进行深度强化学习;
S7、根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;
所述步骤S7包括:
由贝尔曼方程得到即时奖励,并展开深度强化学习,使用DPPO算法,通过副网络在不同的环境中收集数据,然后交给主网络来更新参数;
深度强化学习算法的表达式为:
yDPPO=r+γQ(I',argmaxQ(I',d;θ);θ’)
其中yDPPO表示目标值即实际值,r表示反馈的即时奖励,γ表示折扣因子,I'表示系统的下一状态,d表选取的动作,θ表示主神经网络的参数,θ’表示目标神经网络的参数;
S8、判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化;
所述步骤S8包括:
在深度强化学习的过程中,无人机网络的目标函数值会不断上升,当长期奖励函数的值趋于收敛,即长期奖励函数在一定范围内不再发生明显变化时,得到最优资源分配方案,此时终止学习。
2.一种基于强化学习的无人机网络发射功率分配装置,其特征在于,包括:
第一初始化模块,用于初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;
所述第一初始化模块具体用于:
初始化无人机、用户以及神经网络的各项参数以及无人机的最大发射功率Pmax,网络参数θ和θ′,用户动作、状态、重放经验池D;
第二初始化模块,用于初始化价值函数和当前网络状态的Q值;
所述第二初始化模块具体用于:
定义Q值函数为:Q(I(z),D(z),θ),其中I(z),D(z),θ分别表示当前网络系统的状态,当前选取的动作和当前网络系统的权重参数;
根据无人机网络当前状态的资源分配策略所产生的Q值大小开始进行动作选取环节;
在Q-learning中,Q值的更新策略为:
其中Q'表示下一个状态的Q值,γn表示第n次的折损因子,rz表示无人机网络中第z个状态中对用户的速率回报;而对于θ,则定义功率损失为:
Li(θi)=E(Q'(I(z),D(z);θi)-Q(I(z),D(z);θi))2
其中,将满足使得Li(θi)最小化的θi更新为θi+1;
交互反馈模块,用于与环境交互接收奖励反馈并计算采取当前动作的Q值;
所述交互反馈模块具体用于:
根据香农公式,第k个用户的信道容量为:
Rk=Wlog2(1+SINRk)
其中W表示在无人机网络里的用户带宽,是一个常量,SINRk表示第k个用户的信噪比,表示如下:
其中pk表示第k个用户的功率分配系数,wk表示第k个用户的信道增益,其遵循无人机的常用LoS信道模型,σk表示第k个用户的加性白高斯噪声功率,αk表示相应的噪声功率系数;
则系统的能效即目标函数值为:
选取模块,用于根据反馈得到的奖励的最大值选取最优动作;
所述选取模块具体用于:
系统获取即时奖励并更新参数,系统获得即时奖励的约束:
所有用户的功率和小于无人机发射的最大功率Pmax;
对于约束条件:只需判断无人机的最大功率与它服务的所有用户的总功率之和之间的大小即可:
第k个用户的即时奖励为:
更新模块,用于更新系统的下一状态并存储至经验池中;
所述更新模块具体用于:
系统获得的总即时奖励为:
根据即时奖励的最大值选取对应的动作d(k),并循环进行积累经验;
第一判断模块,用于判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;
所述第一判断模块具体用于:
根据存储的经验数量判断是否进行深度强化学习,若存储的经验数量满足预期值,则开始进行深度强化学习;
深度学习模块,用于根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;
所述深度学习模块具体用于:
由贝尔曼方程得到即时奖励,并展开深度强化学习,使用DPPO算法,通过副网络在不同的环境中收集数据,然后交给主网络来更新参数;
深度强化学习算法的表达式为:
yDPPO=r+γQ(I',argmaxQ(I',d;θ);θ’)
其中yDPPO表示目标值即实际值,r表示反馈的即时奖励,γ表示折扣因子,I'表示系统的下一状态,d表选取的动作,θ表示主神经网络的参数,θ’表示目标神经网络的参数;
第二判断模块,用于判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化;
所述第二判断模块具体用于:
在深度强化学习的过程中,无人机网络的目标函数值会不断上升,当长期奖励函数的值趋于收敛,即长期奖励函数在一定范围内不再发生明显变化时,得到最优资源分配方案,此时终止学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110505367.9/1.html,转载请声明来源钻瓜专利网。