[发明专利]一种小小区动态时分双工结合Q学习的上下行子帧的配置方法有效
申请号: | 201710733069.9 | 申请日: | 2017-08-24 |
公开(公告)号: | CN107493195B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 赵峰;刘博;陈宏滨 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04W72/04;H04L5/14 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 刘梅芳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:1)构建动态时分双工小小区系统模型;2)定义系统模型的状态转移函数P和回报函数R;3)设置上下行子帧重配置周期;4)配置单位周期内小小区上下行子帧;5)构造系统模型目标函数;6)优化目标函数。这种方法能使小小区频谱高效地用在智能终端、能提高小小区频谱效率和能量效率。 | ||
搜索关键词: | 一种 小区 动态 时分 双工 结合 学习 下行 配置 方法 | ||
【主权项】:
一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,系统模型中包含(S,A,P,R)四个集合,其中S是环境状态的离散集合,S={s0,s10,L stL s100},每个环境状态的下标表示在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,A是动作状态的离散集合A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数,R={r‑5,r‑4,L rdL r5},(‑5≤d≤5);2)定义系统模型的状态转移函数P和回报函数R:系统模型假设小小区网络不知道状态转移函数P和回报函数R,回报函数R表示为公式(1):R(t)=Σk=0∞γkrt+k---(1)]]>式中,γ为折扣因子(0<γ<1),用来调整小小区在系统中的配置周期,当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标即为小小区获得最佳的回报函数R,在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数表示为公式(2):Ptt+1(at)=Pr(Xt+1=st+1|Xt=st,a(t)=at) (2);3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms‑200ms;4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号rd,rd∈R,即rd表示在状态st时选择动作a后的回报;5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R。即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st),值函数Vπ(st)在状态st,策略π下表示为公式(3):Vπ(st)=R(st,π(st))+γΣst+1∈SPstst+1(π(st))Vπ(st+1),st∈S,st+1∈S---(3)]]>式中,R(st,π(st))定义为系统模型中小小区设备在状态st时采取策略π得到的期望回报,γ为折扣因子,是采取策略π(st)后由状态st转移到状态st+1的概率,假设将π*定义为系统模型的最优策略,则最佳值函数为即为系统模型需要求解的目标函数公式(4):Vπ*(st)=max{R(st,π(st))+γΣst+1∈SPstst+1(π(st))Vπ*(st+1)}]]>s.t0<γ<10<Pstst+1(π(st))<1,st∈S,st+1∈SVπ*(st+1)≥Vπ(st+1),st+1∈S---(4);]]>6)优化目标函数:在系统模型中,优化目标函数采用值迭代方法中的Q学习方法,假设公式(5)Qπ(st,a)表示在策略π下,状态st时采取动作a后的折扣回报函数,则Qπ(st,a)=R(st,a)+γΣst+1∈SPstst+1atVπ(st+1),st∈S,st+1∈S,a∈A---(5)]]>系统模型中小小区设备执行动作得到回报函数后更新相应的Qπ(s,a)表来评价决策的性能,更新Qπ(s,a)的表达式为公式(6):Qπ(st,a)=Qπ(st,a)+α(R(st,a)+γ maxQ(st+1,ai)‑Qπ(st,a)) (6),其中α为学习率(0<α<1),γ是折扣因子(0<γ<1),st+1,ai分别表示转移到的下一状态及在状态st+1时可能采取的动作,系统模型中小小区设备为了得到最佳值函数为用Vn(st)表示n次迭代后的值函数估计值,具体值迭代方法步骤为:①对于所有状态集S,初始化值函数V0(st),st∈S;②n≥0,对所有的环境状态st∈S,动作状态a∈A,进行迭代,动作值函数为公式(7):状态值函数为公式(8):Vn+1(st)=maxQn+1(st,a) (8)③迭代有限次数后,能收敛到最优策略为公式(9):Vn(st)-Vπ*(st)≤ϵ,∀ϵ,∀st∈S,∃n---(9).]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710733069.9/,转载请声明来源钻瓜专利网。
- 上一篇:空间信息网络柔性节点模型设计方法
- 下一篇:基于物联网的故障处理方法和装置