[发明专利]一种小小区动态时分双工结合Q学习的上下行子帧的配置方法有效
| 申请号: | 201710733069.9 | 申请日: | 2017-08-24 |
| 公开(公告)号: | CN107493195B | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 赵峰;刘博;陈宏滨 | 申请(专利权)人: | 桂林电子科技大学 |
| 主分类号: | H04L12/24 | 分类号: | H04L12/24;H04W72/04;H04L5/14 |
| 代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 刘梅芳 |
| 地址: | 541004 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 小区 动态 时分 双工 结合 学习 下行 配置 方法 | ||
1.一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:
1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合,S={s0,s10,…st…s100},0≤t≤100,其中st表示为每个环境状态在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比;A是动作状态的离散集合A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数R(t),R={r-5,r-4,…rd…r5},其中rd表示为反馈得到的回报函数具体数值量,-5≤d≤5;
2)定义系统模型的状态转移函数P和回报函数R(t):系统模型假设小小区网络不知道状态转移函数P和回报函数R(t),回报函数R(t)表示为公式(1):
式中,rt+k为回报值,即在t时刻采取第k步骤的回报值,γ为折扣因子,其中γ为规定范围内的一个正数0γ1,用来调整小小区在系统中的配置周期;当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标即为小小区获得最佳的回报函数R(t),在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数Ptt+1(at)表示为公式(2):
Ptt+1(at)=Pr(Xt+1=st+1|Xt=st,a(t)=at) (2);
其中at表示在小小区设备在状态t时的做出的动作,Pr为概率,Xt+1表示t+1个动作,Xt表示第t个动作,st+1表示第t+1个状态,st表示第t个状态;
3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms;
4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,环境状态信号st就是指在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号rd,rd∈R,即rd表示在状态st时选择动作a后的回报;
5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R(t),即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st),
值函数Vπ(st)在状态st,策略π下表示为公式(3):
式中,R(st,π(st))定义为系统模型中小小区设备在状态st时采取策略π得到的期望回报,Vπ(st+1)为状态st+1时的值函数,γ为折扣因子,是采取策略π(st)后由状态st转移到状态st+1的概率,假设将π*定义为系统模型的最优策略,则最佳值函数为即为系统模型需要求解的目标函数公式(4):
为状态st+1时刻最佳值函数;
6)优化目标函数:在系统模型中,优化目标函数采用值迭代方法中的Q学习方法,假设公式(5)Qπ(st,a)表示在策略π下,状态st时采取动作a后的折扣回报函数,则
系统模型中小小区设备执行动作得到回报函数后更新相应的Qπ(st,a) 表来评价决策的性能,R(st,a)表示在st的状态下采取a的动作后取得的回报值,表示状态st到状态st+1的概率,更新Qπ(st,a)的表达式为公式(6):
Qπ(st,a)=Qπ(st,a)+α(R(st,a)+γmaxQ(st+1,ai)-Qπ(st,a)) (6)
其中,α为学习率,0α1,α为符合规定范围内的正数,表示学习效果的百分比;其中γ为折扣因子,γ为规定范围内的一个正数0γ1,Q(st+1,ai)表示在st+1时刻动作ai时最折扣报函数;st+1,ai分别表示转移到的下一状态及在状态st+1时可能采取的动作,系统模型中小小区设备为了得到最佳值函数为用Vn(st)表示n次迭代后的值函数估计值,具体值迭代方法步骤为:
①对于所有状态集S,初始化值函数V0(st),st∈S;
②n≥0,对所有的环境状态st∈S,动作状态a∈A,进行迭代,
动作值函数Qn+1(st,a)为公式(7):
R(st,a)表示在st的状态下采取a的动作后取得的回报值,表示状态st到状态st+1的概率,状态值函数Vn+1(st)为公式(8):Vn+1(st)=maxQn+1(st,a) (8),
迭代有限次数后,能收敛到最优策略为公式(9):
其中ε为给定任意正数,无论它多么小。
2.根据权利要求1所述的小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,步骤3)中所述的上下行子帧重配置周期为200ms。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710733069.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:空间信息网络柔性节点模型设计方法
- 下一篇:基于物联网的故障处理方法和装置





