[发明专利]一种小小区动态时分双工结合Q学习的上下行子帧的配置方法有效

申请号：	201710733069.9	申请日：	2017-08-24
公开（公告）号：	CN107493195B	公开（公告）日：	2020-10-30
发明（设计）人：	赵峰;刘博;陈宏滨	申请（专利权）人：	桂林电子科技大学
主分类号：	H04L12/24	分类号：	H04L12/24;H04W72/04;H04L5/14
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	刘梅芳
地址：	541004 广西***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种小区动态时分双工结合学习下行配置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种小小区动态时分双工结合Q学习的上下行子帧的配置方法，其特征是，包括如下步骤：

1)构建动态时分双工小小区系统模型：定义系统模型中，宏蜂窝网络和小小区网络使用不同的频谱，将动态时分双工技术运用在小小区网络中，在固定时刻内，每一个小小区的上下行子帧重配置决策独立于其他小小区，系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合，S＝{s₀,s₁₀,…s_t…s₁₀₀}，0≤t≤100，其中s_t表示为每个环境状态在固定周期内，小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比；A是动作状态的离散集合A＝{a_i,a_j}，a_i表示小小区网络保持之前的子帧配置不变，a_j表示小小区网络改变之前的子帧配置，P是一个状态转移函数:P＝S*A*S∈[0,1]，R是回报函数R(t)，R＝{r_-5,r_-4,…r_d…r₅}，其中r_d表示为反馈得到的回报函数具体数值量，-5≤d≤5；

2)定义系统模型的状态转移函数P和回报函数R(t)：系统模型假设小小区网络不知道状态转移函数P和回报函数R(t)，回报函数R(t)表示为公式(1):

式中，r_t+k为回报值，即在t时刻采取第k步骤的回报值，γ为折扣因子，其中γ为规定范围内的一个正数0γ1，用来调整小小区在系统中的配置周期；当γ＝0时，表示小小区网络只考虑立即回报；γ越接近1，表示小小区网络考虑了长期回报，系统中的最终目标即为小小区获得最佳的回报函数R(t)，在状态转移函数P中，小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作，即为一个随机过程X，用A_t,(A_t∈A)表示在小小区设备在状态t时的所有可能的动作集，则状态转移概率函数P_tt+1(a_t)表示为公式(2)：

P_tt+1(a_t)＝Pr(X_t+1＝s_t+1|X_t＝s_t,a(t)＝a_t) (2)；

其中a_t表示在小小区设备在状态t时的做出的动作，Pr为概率，X_t+1表示t+1个动作，X_t表示第t个动作，s_t+1表示第t+1个状态，s_t表示第t个状态；

3)设置上下行子帧重配置周期：设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms；

4)配置单位周期内小小区上下行子帧：在每一个周期内，小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号s_t,s_t∈S，环境状态信号s_t就是指在固定周期内，小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比，通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A，一旦动作a执行，小小区就针对性的调整上下行子帧配置并产生一个回报信号r_d,r_d∈R，即r_d表示在状态s_t时选择动作a后的回报；

5)构造系统模型目标函数：系统模型的最终的目标是小小区获得最佳的回报函数R(t)，即小小区在固定周期内寻求一个策略π，考量策略的标准是根据策略在未来的折扣回报期望值，即值函数V^π(s_t)，

值函数V^π(s_t)在状态s_t，策略π下表示为公式(3):

式中，R(s_t,π(s_t))定义为系统模型中小小区设备在状态s_t时采取策略π得到的期望回报，V^π(s_t+1)为状态s_t+1时的值函数，γ为折扣因子，是采取策略π(s_t)后由状态s_t转移到状态s_t+1的概率，假设将π^*定义为系统模型的最优策略，则最佳值函数为即为系统模型需要求解的目标函数公式(4)：

为状态s_t+1时刻最佳值函数；

6)优化目标函数：在系统模型中，优化目标函数采用值迭代方法中的Q学习方法，假设公式(5)Q^π(s_t,a)表示在策略π下，状态s_t时采取动作a后的折扣回报函数，则

系统模型中小小区设备执行动作得到回报函数后更新相应的Q^π(s_t,a) 表来评价决策的性能，R(s_t,a)表示在s_t的状态下采取a的动作后取得的回报值，表示状态s_t到状态s_t+1的概率，更新Q^π(s_t,a)的表达式为公式(6):

Q^π(s_t,a)＝Q^π(s_t,a)+α(R(s_t,a)+γmaxQ(s_t+1,a_i)-Q^π(s_t,a)) (6)

其中，α为学习率，0α1，α为符合规定范围内的正数，表示学习效果的百分比；其中γ为折扣因子，γ为规定范围内的一个正数0γ1，Q(s_t+1,a_i)表示在s_t+1时刻动作a_i时最折扣报函数；s_t+1,a_i分别表示转移到的下一状态及在状态s_t+1时可能采取的动作，系统模型中小小区设备为了得到最佳值函数为用V_n(s_t)表示n次迭代后的值函数估计值，具体值迭代方法步骤为:

①对于所有状态集S，初始化值函数V₀(s_t)，s_t∈S；

②n≥0，对所有的环境状态s_t∈S，动作状态a∈A，进行迭代，

动作值函数Q_n+1(s_t,a)为公式(7):

R(s_t,a)表示在s_t的状态下采取a的动作后取得的回报值，表示状态s_t到状态s_t+1的概率，状态值函数V_n+1(s_t)为公式(8)：V_n+1(s_t)＝maxQ_n+1(s_t,a) (8)，

迭代有限次数后，能收敛到最优策略为公式(9):

其中ε为给定任意正数，无论它多么小。

2.根据权利要求1所述的小小区动态时分双工结合Q学习的上下行子帧的配置方法，其特征是，步骤3)中所述的上下行子帧重配置周期为200ms。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学，未经桂林电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710733069.9/1.html，转载请声明来源钻瓜专利网。