[发明专利]一种基于Q学习的双连接流量分配方法有效

专利信息
申请号: 201811354642.6 申请日: 2018-11-14
公开(公告)号: CN109474960B 公开(公告)日: 2022-04-29
发明(设计)人: 陈美娟;管明锋;姚娟娟;谭琛 申请(专利权)人: 南京邮电大学
主分类号: H04W28/10 分类号: H04W28/10
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 刘珊珊
地址: 210003 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种基于Q学习的双连接流量控制方法。该方法在用户同时和主、从基站连接的情况下,以数据传输的业务时延最小为目的,采用Q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略。系统状态空间为三维数组S={sm,ss,sa},sm和ss分别代表主基站队列和从基站队列中包括正在接收的分组在内的所有分组的数目,sa代表到达流量的分组数目。动作集合定义为A,不同动作分别表示有多少分组分配给主基站和从基站。回报函数定义为两条支路时延差值的函数,差值越小回报函数越大。利用训练好的Q矩阵可以很容易从任意状态出发快速找到双连接的最佳流量分配策略,实现了多网络间系统资源的优化使用,达到了时延敏感业务的QOS要求。
搜索关键词: 一种 基于 学习 双连 流量 分配 方法
【主权项】:
1.一种基于Q学习的双连接流量分配方法,其特征在于,该方法在用户同时和主、从基站连接的情况下,以数据传输的业务时延最小为目的,采用Q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略,包括步骤:(1)参数设置:记主、从基站中可用资源块的数目分别为Nm和Ns,设置学习率α、折扣因子γ、动作选择的探索概率ε和迭代次数t;构建系统的状态空间S、动作集合A和回报函数r;状态空间S通过三维数组{sm,ss,sa}描述系统所有状态,其中,sm和ss分别表示已分配给主、从基站的分组的数目,sa代表待分配表示的分组的数目;动作集合A的表达式为A={a0,a1,a2…,an},a0,a1,a2…,an分别表示不同的分配方案,n为分配方案的总数;回报函数r的表达式为:Dm表示主基站支路时延,Ds表示从基站本身的时延,Db表示从基站回程链路的时延;(2)初始化Q值表,使Q值表中的每一个元素Q(s,a)都为零或者随机值,s为系统的一个状态,s∈S;初始化α=α0、γ=γ0、ε=ε0;α0、γ0、ε0为符合系统要求的常数;(3)获取系统当前状态s;根据当前时刻的系统的状态,采用探索概率ε,从动作集合中选取动作a并从Q值表中查找相应的Q值Q(s,a);(4)执行动作a,计算执行动作a后获得的回报值rt(a);根据动作a执行的结果得到下一状态s′,从Q值表中找到状态s′的动作值函数的最大值maxQt(s',a'),a'∈A,a′为maxQt(s',a')对应的动作;更新动作函数值为:其中,t表示当前时刻,t+1表示下一时刻;(5)步骤(4)结束后,更新α和γ,α和γ均为负指数函数,随时间增大逐渐减小;(6)更新Q值表中相应的动作函数值;根据更新后的Q值表,找到状态s的动作值函数的最大值计算最优的Q值为:(7)重复执行步骤(3)至(6),直至最优的Q值Q*(s,a)收敛,然后输出各个状态s的最优动作,即
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811354642.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top