[发明专利]一种异构网络中基于强化学习的资源分配和功率控制联合优化方法有效

申请号：	201810309020.5	申请日：	2018-04-09
公开（公告）号：	CN108521673B	公开（公告）日：	2022-11-01
发明（设计）人：	赵楠;贺潇;范孟林;田超;樊鹏飞;裴一扬;武明虎;蒋云昊;李利荣;常春	申请（专利权）人：	湖北工业大学
主分类号：	H04W72/04	分类号：	H04W72/04;H04W72/08
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	罗飞
地址：	430068 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络基于强化学习资源分配功率控制联合优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种异构网络中基于强化学习的资源分配和功率控制联合优化方法，其特征在于，所述方法包括如下步骤：

针对传输信道和传输功率的动态和时变特性，在考虑到异构网络中用户的自私性和运营商的利益性的前提下，在建立异构蜂窝网络系统模型基础上，通过提出多智能体强化学习优化策略，结合用户满意度Qos和运营商追求利益的条件，利用分布式Q学习方法，获得最优的资源分配、用户关联和功率控制联合策略，从而实现整个网络长期系统效用的最大化；

所述建立异构蜂窝网络系统模型实现过程包括：

考虑由MBS、FBS和用户设备组成的两层异构蜂窝网络，假设某一个MBS信号覆盖范围内存在L个FBSs，即FBS₁,...,FBS_L，于是，所有基站可表示为BS＝{MBS,FBS₁,...,FBS_L}，假设所有的基站和N个UEs都只有一个通信天线，BS可以在K个信道上工作；

对于任意一个UE，定义二元信道分配变量为：

其中，在时间t，如果第i个UE使用信道C_k，则否则虽然使用相同信道的UEs数量是不限的，但是UE每次只能选择一个信道，因此，对于每一个UE，有

此外，定义二元联合基站变量：

其中，在时间t，如果第i个用户连接到第l个基站，则否则，考虑到每个UE只能接入一个基站，对于每一个UE，有

假设在时间t时第i个UE使用信道C_k连接第l个基站BS_l的传输功率为由于FBSs被部署在MBS的无线电覆盖范围内，于是，第i个UE处的瞬时信号干扰比SINR为：

其中，是第l个基站BS_l和第i个用户在信道C_k上的即时连接增益，W是信道带宽，N₀是噪声谱功率；

于是，第i个UE在信道C_k上收到的下行数据率为因此，第i个UE获得的总数据率：

同时，为了保证每个UE的服务质量，第i个UE的瞬时信号干扰比必须不小于用户服务的最低QoS要求Ω_i，即

此外，假设第k个信道下行链路的数据传输成本为：其中，λ₁是BS传输功率的单位价格，于是，第i个UE总传输成本为：

于是，第i个UE的效用定义为：

其中，ρ＞0为每个用户单位速率的收益；

于是，对于任意时间t，UE的长期效用由用户关联、信道分配和基站传输功率控制共同决定，即：

其中，γ是折扣因子，当γ∈[0,1)表示更重视长期收益；

所述多智能体强化学习优化策略实现过程包括：

联合优化问题可以形式化地定义为MDP(S；A_i；R_i；P)，其中，S是一组离散的环境状态，A₁,...,A_N是一组离散的可能动作，R₁,...,R_N是奖励函数，P是状态转移矩阵，首先描述强化学习的基本模型，接着，提出基于多智能体强化学习的联合优化算法；

定义状态空间，行动空间和奖励函数有关的基本强化学习元素，在这种异构蜂窝网络中，每个UE都扮演着一个智能体的角色，因此，提出分布式多智能体强化学习优化策略；

状态空间：目标状态s(t)由N个UE的服务质量综合确定，s(t)＝{s₁(t),s₂(t),...,s_N(t)}，

当用户对服务质量满意时就等于1，不满意就是0，所有可能状态的数量是2^N，随着N的增加，这个数目可能非常大；

动作空间：每个UE选择附近的BS、传输信道和功率水平，考虑到实际应用场景，发射功率一般为离散值，于是，假设有M个传输功率水平，即P₁,...,P_M，即

其中，如果BS选择传输功率p_m，则否则，考虑到BS传输时只能选择一种功率水平，于是有：

于是，每一个UE的动作空间中四个变量：

这样以来，每一UE的状态数量是2^(L+1+K)M，随着L，K和M的增加，状态数量会非常大；

奖励函数：当UE采取动作时就会获得相应的奖励，UE的奖励函数为：

其中，ψ_i是动作选择成本，为第i个UE处的瞬时信号干扰比，当UE的信号干扰比不小于最低Qos要求Ω_i，则UE的效用就是其奖励，否则，UE的奖励就是其动作选择成本ψ_i，这一奖励函数保证了异构蜂窝网络最小的Qos需求和每个UE最大的效用；

所述分布式Q学习方法，所采取的实现过程包括：

单个智能体强化学习的目标是找到最优策略来最大化每个智能体的收益，然而，在多智能体强化学习中，智能体的训练还要考虑稳定性和适应性，考虑到其简单性和分布性特点，采用分布式多智能体强化学习，每个UE通过消息传递来获得全局状态空间，并基于全局状态空间以获得最优策略，每个UE不需要发送自身的最优策略，而是一个比特位来发送其当前状态给其他UE，每个UE需要找到在每个状态下的最优策略，以获得累计收益的最大化；

第i个UE的值函数定义为：

其中，E表示学习期望，它与时间t无关；

由于马尔可夫性质，随后的状态只由当前状态决定，与之前的状态无关，于是，值函数可简化为：

其中，u_i(s,a_i)是R_i(s,a_i)的数学期望，P_ss'(a_i)表示从状态s到状态s'的转移概率；

于是，基于贝尔曼准则，最优策略值函数为：

于是，得到最优Q值函数

基于上述最优Q值函数状态s下最优策略可得：

一般来说，很难获得准确的转移概率P_ss'(a_i)，然而，基于可用信息(s,a_i,s',E[u_i(s,π_i(s))])，利用Q学习，可以以递归方式获得最优策略，Q学习的迭代公式为：

其中，δ是学习速率，它决定了Q_i(s,a_i)的更新速度；

此外，在动作选择的利用与探索权衡策略中，选择ε-greedy策略，以概率1-ε选择最佳动作以概率ε随机选择动作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载