[发明专利]一种基于Q学习的能量阈值动态优化方法有效
申请号: | 202010021376.6 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111246502B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 裴二荣;鹿逊;刘珊;易鑫;周礼能;张茹;王振民;朱冰冰;杨光财;荆玉琪 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04W24/02 | 分类号: | H04W24/02;H04W28/06;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 能量 阈值 动态 优化 方法 | ||
1.一种基于Q学习的能量阈值动态优化方法,其特征在于:该方法包括以下步骤:
S1:设置LAA SBSs的动作集合A={a1,a2...at},其中每一个动作at表示不同的能量阈值的取值,设置状态集合S={s1,s2...st},其中每一个状态st都是由吞吐量和公平性系数组成st={Rt,Ft},初始化Q矩阵为零阶矩阵,LAA SBSs随机选择一个初始状态;
S2:LAA SBSs根据ε-greedy选择策略选择一个动作at,ε-greedy动作选择策略采用探索和利用两者相结合的选择方式可以高效准确的进行动作选择;
S3:根据动作at计算出当前选择的动作对应的共存系统吞吐量和公平性系数,获取当前选择动作at的奖励r(st,at):使用ε-greedy选择策略选取动作at,然后使用动作at计算对应的吞吐量Rt和公平性系数Ft,即确认当前动作对应的状态st={Rt,Ft};对于状态st中的吞吐量Rt,表示LAA系统和WI-FI系统吞吐量之和,参考Markov链模型求取共存系统的吞吐量;对于状态st中的公平性系数Ft,表示共存系统的公平性系数,定义为:其中Rl和Rw分别表示LAA和Wi-Fi的吞吐量,nl和nw分别表示LAA SBSs和Wi-Fi AP的设备数量,公平性系数Ft越接近1时,共存系统越公平;根据吞吐量和公平性将状态分为如下四个状态,分别为低吞吐量低公平性、低吞吐量高公平性、高吞吐量低吞吐量和高吞吐量高公平性,其中高吞吐量高公平性为LAA SBSs的目标状态;当选取动作at完成后,根据当前选择的动作获取奖励r(st,at),奖励函数定义为:其中F1°和F2°为定义的最小的公平性系数,只有当动作at对应的吞吐量和公平性系数满足一定条件时,当前选择的动作才会有奖励;
S4:根据学习的Q表更新公式,更新Q表,LAA SBSs进入下一个状态;
S5:重复执行步骤S2及以下步骤,直到Q表收敛完成训练。
2.根据权利要求1所述的一种基于Q学习的能量阈值动态优化方法,其特征在于:在步骤S4中,根据Q-learning的Q表更新公式其中α表示学习速率且0<α<1,γ表示折扣因子且0≤γ<1。
3.根据权利要求1所述的一种基于Q学习的能量阈值动态优化方法,其特征在于:在步骤S5中,对于本文中的Q学习,只有当前状态达到目标状态,即LAA SBSs当前状态达到高吞吐量高公平性,才算完成一次迭代过程;重复执行步骤S2及以下步骤,直到Q表收敛完成训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010021376.6/1.html,转载请声明来源钻瓜专利网。