[发明专利]一种高额奖励惩罚的竞争深度Q网络功率控制方法有效
申请号: | 202110701419.X | 申请日: | 2021-06-23 |
公开(公告)号: | CN113438723B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 刘骏;刘德荣;王永华;林得有;王宇慧 | 申请(专利权)人: | 广东工业大学 |
主分类号: | H04W52/14 | 分类号: | H04W52/14;H04W52/24;H04W52/34;G06N3/08;G06F18/24;G06N3/0464 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高额 奖励 惩罚 竞争 深度 网络 功率 控制 方法 | ||
本发明提供一种高额奖励惩罚的竞争深度Q网络功率控制方法,该方法对深度强化学习过程中的奖励函数进行改进,根据次用户频谱接入的情况进行等级划分,给予不同的动作以不同奖励值大小。对最正确接入最成功的动作给与高额奖励,对最错误接入最失败的动作给与高额惩罚,这样可以使系统更快探索出成功接入的策略;把竞争深度Q网络与高额奖励惩罚的分级奖励函数相结合,并应用于频谱的动态功率控制,不仅可以有效提高系统的稳定性,还能提高次用户的总吞吐量,减小功率损耗,起到节约能源的作用。
技术领域
本发明涉及认知无线电控制方法领域,更具体地,涉及一种高额奖励惩罚的竞争深度Q网络功率控制方法。
背景技术
伴随着无线通信技术的迅猛发展和广泛使用,频谱资源的需求不断激增,与之相对的却是无线频谱资源日渐枯竭的严峻现实,这逐渐成为无线通信技术进一步发展亟须解决的一大难题。然而,目前大部分频谱资源的分配还是使用比较传统且固定的分配方法,即把特定的频段指定划给特定的用户,其他用户需得到授权以后才能使用这些频谱资源。学术界和工业界做了大量的研究表明,一方面大量的频谱资源其实并未真正被授权用户所使用,大量授权频段会处于空闲状态,授权用户的空闲频段使用率较低,另一方面却是公共频段频谱资源的疯抢与拥堵。因此,如何解决频谱资源分配过程中的这些矛盾,提高频谱利用率就显得极为重要。
认知无线电(Cognitive Radio,CR)技术的概念,其目的是为了缓解频谱资源短缺和频谱利用率低等问题。认知无线电的认知过程分成六个步骤,分别是定位(Orient)、观察(Observe)、学习(study)、决策(Decide)、计划(Plan)和行动(Act)。认知无线电通过对外部环境的观察与学习,智能调节自身的决策与定位,实现相应的计划和行动,对外界环境作出自适应调整过程。对于频谱共享而言,认知无线电核心思想是:在对取得频谱使用权的授权用户(Primary User,PU)不产生干扰的前提下,次用户(Second User,SU)通过感知周围的无线电环境,伺机进行频谱接入以提高频谱利用率,该技术通过动态频谱分配技术实现多个频段的接入,能够对空闲频谱进行充分利用。
在强化学习(RL)的基础上,结合深度学习发展而来的深度强化学习算法在很多人工智能领域取得与人类相当的水平,如围棋、Dota、StartCraft II等。具体的,深度Q网络(deep Q-networks,DQN)是将RL过程与一类神经网络(deep neural network)相结合,逼近Q动作值函数,神经网络可以弥补q学习在泛化和函数逼近能力方面的局限性。而竞争深度Q网络(Dueling DQN)是在普通DQN的基础上做了算法的改进,将状态的价值和该状态下的动作advantage值求和作为Q值进行重新评估。
在最新的研究中,有研究者将DQN算法应用于频谱分配中,仿真结果表明,该算法具有较快的收敛速度和较低的丢包率。也有学者为了克服未知动态工业物联网环境的挑战,提出了一种改进的深度Q学习网络应用于工业物联网频谱资源管理。还有研究者将竞争深度强化学习算法应用于对土壤重金属含量的预测,并能够得到比较良好的效果。但这些深度强化学习方法都没有同时兼顾状态的价值和该状态下的动作值,或者在设计奖励函数时常常没有按照频谱接入的成功情况进行奖励函数等级的划分。
发明内容
本发明提供一种高额奖励惩罚的竞争深度Q网络功率控制方法,该方法同时考虑到状态和动作的价值,并将其求和再重新评估,能够有效提高系统稳定性。
为了达到上述技术效果,本发明的技术方案如下:
一种高额奖励惩罚的竞争深度Q网络功率控制方法,包括以下步骤:
S1:辅助基站收集主用户和次用户的通信信息,并将获得的信息传输给次用户;
S2:将次用户在每个时隙选择的发射功率设置为动作值,构建动作空间;
S3:构建高额奖励惩罚的分级奖励函数;
S4:构建功率控制策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110701419.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高精度大气采样器
- 下一篇:一种多产业融合智能易伤水果选果分装平台