[发明专利]一种高额奖励惩罚的竞争深度Q网络功率控制方法有效
申请号: | 202110701419.X | 申请日: | 2021-06-23 |
公开(公告)号: | CN113438723B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 刘骏;刘德荣;王永华;林得有;王宇慧 | 申请(专利权)人: | 广东工业大学 |
主分类号: | H04W52/14 | 分类号: | H04W52/14;H04W52/24;H04W52/34;G06N3/08;G06F18/24;G06N3/0464 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高额 奖励 惩罚 竞争 深度 网络 功率 控制 方法 | ||
1.一种高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,包括以下步骤:
S1:辅助基站收集主用户和次用户的通信信息,并将获得的信息传输给次用户;
在t时刻,次用户k在状态sk(t)下选择某个动作,此时次用户将进入sk(t)的下一个状态;
S2:将次用户在每个时隙选择的发射功率设置为动作值,构建动作空间;
将次用户在每个时隙选择的发射功率设置为动作值,每个次用户的发射功率为离散化的值,且每个次用户选择H种不同的发射值,所以共有Hn种可选择动作空间,动作空间定义为:
A(t)=[P1(t),P2(t),...,Pn(t)]
其中,P表示发射功率;
S3:构建高额奖励惩罚的分级奖励函数;
S4:构建功率控制策略;
所述步骤S1的具体过程是:
由于主用户和次用户为非合作的关系,次用户以下垫式接入主用户信道,主次用户均不可获知双方的功率发射策略,在信号传输过程中,辅助基站发挥着重要作用,它负责收集主用户和次用户的通信信息,并将获得的信息传输给次用户,假设环境中有X个辅助基站,则状态值为:
S(t)=[s1(t),s2(t),...,sk(t),...,sx(t)]
其中,第K个辅助基站接收的信号强度,定义为:
式中,m表示主用户的个数,n表示次用户的个数;i表示第i个主用户,j表示第j个次用户;lik(t)、ljk(t)分别表示t时刻辅助基站与主、次用户之间的距离,l0(t)表示基准距离,τ表示路径损耗指数,σ(t)表示系统的平均噪声功率。
2.根据权利要求1所述的高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,步骤S3中,设计四项指标来评判次用户频谱接入的成功等级,指标定义如下:
其中,符号表示任意,符号表示存在,符号∑表示求和;Pi表示接入信道的第i个主用户发射功率,Pj表示第j个次用户发射功率;γi表示主用户的信噪比,γj表示次用户的信噪比;和分别表示任意主用户和任意次用户的信噪比,μi和μj分别表示主用户和次用户预设的阈值,和∑Pj分别表示任意接入信道的主用户功率、次用户发射功率之和。
3.根据权利要求2所述的高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,步骤S3中,把任意主用户的信噪比是否都大于预设阈值定义为判断功率控制是否成功最先决的条件,若任意主用户的信噪比并非都大于预设阈值,则可直接判定频谱接入完全失败CF;若任意主用户的信噪比都大于预设阈值,但不存在次用户的信噪比高于预设阈值,则把这种情况称之为次级接入失败SF;若任意主用户的信噪比都大于预设阈值,任意次用户的信噪比也均大于预设阈值,并且所有接入信道的主用户发射功率都大于次用户发射功率之和,则将这种接入方式称之为完全接入成功CS;在完全接入成功的条件中,若仅有部分次用户信噪比高于预设阈值,其余条件不变,则将这种接入方式称之为次级接入成功SS,具体公式表达如下:
根据以上分级条件,定义奖励函数为:
上式中,参数a1、a2、a3和a4均为常数,a1>10a2,a3>10a4,把奖励函数按照频谱接入成功情况进行等级划分,将次用户完全接入成功给予高额奖励,将次用户完全接入失败给予高额惩罚,使得系统更快探索出成功接入策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110701419.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高精度大气采样器
- 下一篇:一种多产业融合智能易伤水果选果分装平台