[发明专利]一种基于Q学习的能量阈值动态优化方法有效

申请号：	202010021376.6	申请日：	2020-01-09
公开（公告）号：	CN111246502B	公开（公告）日：	2022-04-29
发明（设计）人：	裴二荣;鹿逊;刘珊;易鑫;周礼能;张茹;王振民;朱冰冰;杨光财;荆玉琪	申请（专利权）人：	重庆邮电大学
主分类号：	H04W24/02	分类号：	H04W24/02;H04W28/06;G06N20/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	400065***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于学习能量阈值动态优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Q学习的能量阈值动态优化方法，其特征在于：该方法包括以下步骤:

S1：设置LAA SBSs的动作集合A＝{a₁,a₂...a_t}，其中每一个动作a_t表示不同的能量阈值的取值，设置状态集合S＝{s₁,s₂...s_t}，其中每一个状态s_t都是由吞吐量和公平性系数组成s_t＝{R_t,F_t}，初始化Q矩阵为零阶矩阵，LAA SBSs随机选择一个初始状态；

S2：LAA SBSs根据ε-greedy选择策略选择一个动作a_t，ε-greedy动作选择策略采用探索和利用两者相结合的选择方式可以高效准确的进行动作选择；

S3：根据动作a_t计算出当前选择的动作对应的共存系统吞吐量和公平性系数，获取当前选择动作a_t的奖励r(s_t,a_t)：使用ε-greedy选择策略选取动作a_t，然后使用动作a_t计算对应的吞吐量R_t和公平性系数F_t，即确认当前动作对应的状态s_t＝{R_t,F_t}；对于状态s_t中的吞吐量R_t，表示LAA系统和WI-FI系统吞吐量之和，参考Markov链模型求取共存系统的吞吐量；对于状态s_t中的公平性系数F_t，表示共存系统的公平性系数，定义为：其中R_l和R_w分别表示LAA和Wi-Fi的吞吐量，n_l和n_w分别表示LAA SBSs和Wi-Fi AP的设备数量，公平性系数F_t越接近1时，共存系统越公平；根据吞吐量和公平性将状态分为如下四个状态，分别为低吞吐量低公平性、低吞吐量高公平性、高吞吐量低吞吐量和高吞吐量高公平性，其中高吞吐量高公平性为LAA SBSs的目标状态；当选取动作a_t完成后，根据当前选择的动作获取奖励r(s_t,a_t)，奖励函数定义为：其中F₁°和F₂°为定义的最小的公平性系数，只有当动作a_t对应的吞吐量和公平性系数满足一定条件时，当前选择的动作才会有奖励；

S4：根据学习的Q表更新公式，更新Q表，LAA SBSs进入下一个状态；

S5：重复执行步骤S2及以下步骤，直到Q表收敛完成训练。

2.根据权利要求1所述的一种基于Q学习的能量阈值动态优化方法，其特征在于：在步骤S4中，根据Q-learning的Q表更新公式其中α表示学习速率且0＜α＜1，γ表示折扣因子且0≤γ＜1。

3.根据权利要求1所述的一种基于Q学习的能量阈值动态优化方法，其特征在于：在步骤S5中，对于本文中的Q学习，只有当前状态达到目标状态，即LAA SBSs当前状态达到高吞吐量高公平性，才算完成一次迭代过程；重复执行步骤S2及以下步骤，直到Q表收敛完成训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010021376.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于无线通信的方法、设备和介质
下一篇：多尺度融合并行稠密残差卷积神经网络图像去噪方法

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W24-00 监督，监控或测试装置
H04W24-02 .用于优化操作环境的装置
H04W24-04 .用于维护操作环境的装置
H04W24-06 .使用仿真业务量进行测试
H04W24-08 .使用真实业务量进行测试
H04W24-10 .调度测量报告

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Q学习的能量阈值动态优化方法有效

专利文献下载