[发明专利]基于强化学习的跳跃式频谱感知方法有效
| 申请号: | 202011067956.5 | 申请日: | 2020-10-08 |
| 公开(公告)号: | CN112367131B | 公开(公告)日: | 2021-09-24 |
| 发明(设计)人: | 李轩衡;董一锋;张雨浩;孙弘毅;张仁浩;丁海川 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | H04B17/382 | 分类号: | H04B17/382;H04W72/04;G06N20/00 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 学习 跳跃 频谱 感知 方法 | ||
1.一种基于强化学习的跳跃式频谱感知方法,其特征在于,与已有的周期性频谱感知方法不同,设备在感知信道的同时会决定在接下来的一段时间不感知信道,从而大幅度减小感知开销;具体步骤如下:
(1)定义状态集、动作集、动作结束判断原则和奖励函数
定义1:对于任意时隙,发射机的状态集定义为包括设备接入和感知的信道编号以及对应第个信道的状态其中0表示信道空闲,1表示信道被占用,i=[1,2…,N];
定义2:对于任意时隙,发射机的动作集a={ν,γ},其中ν∈{1,…,M}表示选择接入和感知的信道编号,γ∈{1,…ωmax}表示选择跳过感知的时隙数,ωmax为发射机可跳过时隙数的最大值;
定义3:定义两个判断动作是否结束的原则:1)接入的某个信道在感知跳过期间一直空闲,即设备成功跳过所选择的感知时隙;2)设备未能成功跳过所选跳过感知时隙,即在跳过感知的过程中信道被主用户占用,产生冲突;当上述两种原则任意一种发生时,认为对应动作结束;
定义4:奖励函数定义为其中δ=0表示成功传输即定义3的原则1),δ=1表示传输失败即定义3的原则2),目的是在成功传输时给予一个正的奖励值,传输失败时则给予一个负的奖励值;表示在定义3的原则1)时跳过的时隙数越多,节省的感知开销越多,奖励值越大;在定义3的原则2)时跳过的时隙数越多,对主用户造成的影响越大,即奖励值越小;Bν表示信道ν的带宽;
(2)基于步骤(1)中定义的状态集、动作集、动作结束判断原则和奖励函数,发射机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价,亦称为Q值,随着算法逐渐收敛,Q值将指导发射机在动态环境下选择最优动作;
(2.1)为了记录所有“状态-动作”的Q值,建立二维Q表,并将所有值初始化为0;假设初始化状态为全部信道空闲;
(2.2)判断目前接入的信道数量,若接入Z个,则需要选择N-Z个动作执行,即选择N-Z个信道接入;对于每个动作选择,遵循如下方式:以概率1-ε选择Q表对应状态s下的所有动作中Q值最大的动作,即以概率ε随机选择动作;该选择执行N-Z次,确定N-Z个接入信道;
(2.3)执行步骤(2.2)中选择的动作a;设备感知第ν个信道,若该信道空闲,则接入该信道,同时在接下来的γ个时隙持续接入该信道并不执行感知;若该信道被占用,则不接入该信道;
(2.4)对于任意接入频带,基于定义3中的原则判断是否有动作结束;对于结束的动作基于定义4计算其在对应状态下的奖励值,并得到该动作结束时的状态s',s'中的和即为在此时设备接入的信道的编号和其对应的占用情况;
(2.5)根据奖励值更新Q表中对应的“状态-动作”Q值,对于每一个状态s下做出动作a的Q值更新公式如下:
其中α为学习率,η为折扣因子;
(2.6)重复步骤(2.2)-(2.5),直到传输任务结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011067956.5/1.html,转载请声明来源钻瓜专利网。





