[发明专利]一种基于Q学习的蜂窝网络D2D通信功率控制算法在审
申请号: | 202110555761.3 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113301639A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 郑军;陈文泰;姜书瑞;张源 | 申请(专利权)人: | 东南大学 |
主分类号: | H04W52/24 | 分类号: | H04W52/24;H04W52/26;H04W52/38;G06N20/00 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 蜂窝 网络 d2d 通信 功率 控制 算法 | ||
1.一种基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,包括如下步骤:
步骤1、为蜂窝用户和D2D用户对分配频谱资源,利用基站和用户之间的距离信息计算蜂窝用户与基站之间、D2D用户对与基站之间、蜂窝用户与D2D对之间、D2D用户对之间的信道增益,利用频谱分配信息计算共享同一频谱资源块的用户链路的信干噪比,根据香农公式计算用户吞吐量;
步骤2、根据D2D通信功率控制的场景定义Q学习中的智能体、动作、状态、奖励函数参数;
步骤3、在集中式场景下设计并运行Q学习算法,在集中式场景中,占用同一个频谱资源块的所有D2D用户对共同维护和更新一个Q值表,Q值表个数与频谱资源块的数目相等,功率分配过程是多个独立的Q学习过程;
步骤4、在分布式场景下设计并运行Q学习算法;在分布式场景中,每个D2D用户对单独维护一张Q值表,Q值表个数与D2D用户对的数目相等。
2.根据权利要求1所述的基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,步骤1中蜂窝链路的信干噪比为:
其中,Ci表示第i个蜂窝用户(i=1,2,…,M),Dj表示第j个D2D用户对(j=1,2,…,V),r=1,2,…,K表示网络中频谱资源块的编号,M表示蜂窝用户,N表示D2D用户对,K表示频谱资源块的数量;表示共享第r个频谱资源块的所有D2D用户对的集合;表示占用第r个频谱资源块的蜂窝用户Ci的发射功率,表示占用第r个频谱资源块的D2D用户对Dj的发射功率;表示占用第r个频谱资源块的蜂窝用户Ci与基站之间的信道增益,表示占用第r个频谱资源块的D2D用户对Dj发送端与基站之间的信道增益,σ2表示噪声功率;
D2D链路的信干噪比为:
其中,表示占用第r个频谱资源块的D2D用户对Dj发送端与接收端之间的信道增益,表示占用第r个频谱资源块的蜂窝用户Ci和D2D用户对Dj接收端之间的信道增益,表示共享第r个频谱资源块的不同D2D用户对Dj′发送端与Dj接收端之间的信道增益。
3.根据权利要求2所述的基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,步骤1中网络中蜂窝用户的吞吐量为:
其中,W表示网络的频谱带宽;
网络中D2D用户的吞吐量为:
其中,表示网络中所有D2D用户对的集合;
网络中所有用户的总吞吐量为:
4.根据权利要求3所述的基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,所述智能体是蜂窝网络中的D2D用户对;
所述动作是占用同一频谱资源块的每个D2D用户对选择一个发射功率p∈{p1,p2,…,pL},动作用a进行表示,其中,p1,p2,…,pL为可供选择的发射功率;
所述状态是单状态,即学习过程中只有一个状态,用s表示状态;
所述奖励函数是特定频谱资源块上的条件吞吐量:
其中,R表示奖励函数,τ0表示蜂窝链路信干噪比的门限值;
上式表示当蜂窝链路的信干噪比高于门限值时,奖励函数为该频谱资源块上的总吞吐量,否则,奖励函数为-1,表示惩罚值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110555761.3/1.html,转载请声明来源钻瓜专利网。