[发明专利]一种基于Q学习的双连接流量分配方法有效
| 申请号: | 201811354642.6 | 申请日: | 2018-11-14 |
| 公开(公告)号: | CN109474960B | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 陈美娟;管明锋;姚娟娟;谭琛 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | H04W28/10 | 分类号: | H04W28/10 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 刘珊珊 |
| 地址: | 210003 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: |
本发明提出了一种基于Q学习的双连接流量控制方法。该方法在用户同时和主、从基站连接的情况下,以数据传输的业务时延最小为目的,采用Q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略。系统状态空间为三维数组S={s |
||
| 搜索关键词: | 一种 基于 学习 双连 流量 分配 方法 | ||
【主权项】:
1.一种基于Q学习的双连接流量分配方法,其特征在于,该方法在用户同时和主、从基站连接的情况下,以数据传输的业务时延最小为目的,采用Q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略,包括步骤:(1)参数设置:记主、从基站中可用资源块的数目分别为Nm和Ns,设置学习率α、折扣因子γ、动作选择的探索概率ε和迭代次数t;构建系统的状态空间S、动作集合A和回报函数r;状态空间S通过三维数组{sm,ss,sa}描述系统所有状态,其中,sm和ss分别表示已分配给主、从基站的分组的数目,sa代表待分配表示的分组的数目;动作集合A的表达式为A={a0,a1,a2…,an},a0,a1,a2…,an分别表示不同的分配方案,n为分配方案的总数;回报函数r的表达式为:
Dm表示主基站支路时延,Ds表示从基站本身的时延,Db表示从基站回程链路的时延;(2)初始化Q值表,使Q值表中的每一个元素Q(s,a)都为零或者随机值,s为系统的一个状态,s∈S;初始化α=α0、γ=γ0、ε=ε0;α0、γ0、ε0为符合系统要求的常数;(3)获取系统当前状态s;根据当前时刻的系统的状态,采用探索概率ε,从动作集合中选取动作a并从Q值表中查找相应的Q值Q(s,a);(4)执行动作a,计算执行动作a后获得的回报值rt(a);根据动作a执行的结果得到下一状态s′,从Q值表中找到状态s′的动作值函数的最大值maxQt(s',a'),a'∈A,a′为maxQt(s',a')对应的动作;更新动作函数值为:
其中,t表示当前时刻,t+1表示下一时刻;(5)步骤(4)结束后,更新α和γ,α和γ均为负指数函数,随时间增大逐渐减小;(6)更新Q值表中相应的动作函数值;根据更新后的Q值表,找到状态s的动作值函数的最大值
计算最优的Q值为:
(7)重复执行步骤(3)至(6),直至最优的Q值Q*(s,a)收敛,然后输出各个状态s的最优动作,即![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811354642.6/,转载请声明来源钻瓜专利网。





