[发明专利]一种基于Q学习的双连接流量分配方法有效

申请号：	201811354642.6	申请日：	2018-11-14
公开（公告）号：	CN109474960B	公开（公告）日：	2022-04-29
发明（设计）人：	陈美娟;管明锋;姚娟娟;谭琛	申请（专利权）人：	南京邮电大学
主分类号：	H04W28/10	分类号：	H04W28/10
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	刘珊珊
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种基于Q学习的双连接流量控制方法。该方法在用户同时和主、从基站连接的情况下，以数据传输的业务时延最小为目的，采用Q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略。系统状态空间为三维数组S＝{sm，ss，sa}，sm和ss分别代表主基站队列和从基站队列中包括正在接收的分组在内的所有分组的数目，sa代表到达流量的分组数目。动作集合定义为A，不同动作分别表示有多少分组分配给主基站和从基站。回报函数定义为两条支路时延差值的函数，差值越小回报函数越大。利用训练好的Q矩阵可以很容易从任意状态出发快速找到双连接的最佳流量分配策略，实现了多网络间系统资源的优化使用，达到了时延敏感业务的QOS要求。
搜索关键词：	一种基于学习双连流量分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Q学习的双连接流量分配方法，其特征在于，该方法在用户同时和主、从基站连接的情况下，以数据传输的业务时延最小为目的，采用Q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略，包括步骤：(1)参数设置：记主、从基站中可用资源块的数目分别为N_m和N_s，设置学习率α、折扣因子γ、动作选择的探索概率ε和迭代次数t；构建系统的状态空间S、动作集合A和回报函数r；状态空间S通过三维数组{s_m,s_s,s_a}描述系统所有状态，其中，s_m和s_s分别表示已分配给主、从基站的分组的数目，s_a代表待分配表示的分组的数目；动作集合A的表达式为A＝{a₀,a₁,a₂…,a_n}，a₀,a₁,a₂…,a_n分别表示不同的分配方案，n为分配方案的总数；回报函数r的表达式为：D_m表示主基站支路时延，D_s表示从基站本身的时延，D_b表示从基站回程链路的时延；(2)初始化Q值表，使Q值表中的每一个元素Q(s,a)都为零或者随机值，s为系统的一个状态，s∈S；初始化α＝α0、γ＝γ0、ε＝ε0；α0、γ0、ε0为符合系统要求的常数；(3)获取系统当前状态s；根据当前时刻的系统的状态，采用探索概率ε，从动作集合中选取动作a并从Q值表中查找相应的Q值Q(s,a)；(4)执行动作a，计算执行动作a后获得的回报值rt(a)；根据动作a执行的结果得到下一状态s′，从Q值表中找到状态s′的动作值函数的最大值maxQt(s',a')，a'∈A，a′为maxQt(s',a')对应的动作；更新动作函数值为：其中，t表示当前时刻，t+1表示下一时刻；(5)步骤(4)结束后，更新α和γ，α和γ均为负指数函数，随时间增大逐渐减小；(6)更新Q值表中相应的动作函数值；根据更新后的Q值表，找到状态s的动作值函数的最大值计算最优的Q值为：(7)重复执行步骤(3)至(6)，直至最优的Q值Q^*(s,a)收敛，然后输出各个状态s的最优动作，即

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811354642.6/，转载请声明来源钻瓜专利网。

上一篇：一种小区接入的方法和装置
下一篇：一种移动边缘计算服务器的网络能效优化方法、系统

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W28-00 网络业务量或资源管理
H04W28-02 .业务量管理，例如流量控制或拥塞控制
H04W28-16 .中央资源管理；资源协商，例如协商带宽或QoS[服务质量]
H04W28-18 ..协商无线通信参数
H04W28-24 ..协商SLA[业务等级协定]；协商QoS[服务质量]
H04W28-26 ..资源预留

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Q学习的双连接流量分配方法有效

专利文献下载