[发明专利]基于改进回报函数的深度强化学习认知网络功率控制方法有效
申请号: | 202110647638.4 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113395757B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 汤春瑞;张维思;张音捷;李一兵;郝向宁;栾磊;张驰;贺平 | 申请(专利权)人: | 中国人民解放军空军通信士官学校 |
主分类号: | H04W52/18 | 分类号: | H04W52/18;H04W52/28;H04W52/34;G06N3/045;G06N3/048;G06N3/08 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 李猛 |
地址: | 116000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 回报 函数 深度 强化 学习 认知 网络 功率 控制 方法 | ||
一种基于改进回报函数的深度强化学习认知网络功率控制方法,属于认知无线电技术领域,为了解决增加频谱的利用率的问题,要点是建立两个相同结构的神经网络;次用户通过辅助传感节点与环境互动进行学习,并基于改进后的回报函数取得细致反馈,最终获得序列样本,而后将序列样本存储至记忆库中;记忆库的存储达到额度时,对记忆库中样本进行均匀抽样,表现神经网络目标为最小化表现网络输出与目标网络输出的平方差,次用户进行新的互动之后,最新的序列样本会取代最旧的序列样本;每经过一定次数迭代,将表现网络参数赋予目标网络;完成所有迭代循环后获得完整神经网络模型,效果是次用户能够智能调整自己功率保证主次用户都能成功进行数据传输。
技术领域
本发明属于认知无线电技术领域,具体涉及基于改进回报函数的深度强化学习认知网络功率控制。
背景技术
随着5G技术和物联网技术的快速发展,新技术对于频谱资源的需求量急速增多。而现行静态分割,独占式的频谱管理规则过于限制频谱接入机会,严重阻碍了无线通信网络的部署和运行。因此,如何提高频谱资源的利用率成为目前研究重点。认知无线电于1999由John Mitola提出,通过频谱复用的方式,在保证主用户正常使用频段的前提下,次用户动态地使用频谱,提高频谱资源的利用率。
在主次用户频谱复用下,由于主用户发射功率并非一成不变,极有可能随着时间环境进行调整以满足自己的通信需求,因此次用户需要在未知主用户功率策略的前提下,短时间内调整自己的发射功率来同时保证主用户与自己的顺利传输。深度强化学习可以在未知主用户功率策略的条件下,通过次用户与环境动态交互,从过往经验中进行学习。然而在深度学习中经常遇到由于回报函数设计不合理而造成的稀疏回报问题,进而导致学习速率慢,学习效果差,最终难以收敛,在认知网络中功率控制体现的是,次用户无法在规定的时间内调整至合适的功率,最终难以实现有效传输,甚至影响主用户的传输。因此针对主次用户复用的功率控制问题设计合理的回报函数也十分重要。
现有技术中,公开号为CN102333362A提出了一种基于分布式价格算法的认知无线电功率控制的方法,但是其需知主用户发射功率,以及次用户在不对主用户造成干扰的最大发射功率等先验信息。公开号CN107947878A提出了一种基于能效和谱效联合优化的认知无线电功率分配的方法,然而其设定主用户所能忍受的最大干扰功率不变,实际环境中随着主用户功率的变化,主用户对干扰的容忍程度也会变化。Li Xingjian等人发表于《IEEEAccess》的“Intelligent Power Control for Spectrum Sharing in CognitiveRadios:ADeep Reinforcement LearningApproach”一文中次用户通过强化学习动态调整发射功率保证双方成功传输,但是其回报函数设计存在不足,容易造成稀疏回报问题。
发明内容
针对功率控制问题,本发明的提出一种基于改进回报函数的深度强化学习认知网络功率控制方法,对回报函数进行合理优化设计,次用户能够在未知主用户功率策略的前提下,通过深度强化学习与环境进行互动进行学习,最终次用户能够智能调整自己功率保证主次用户都能成功进行数据传输,最终增加频谱利用率。
本发明的目的是这样实现的:一种基于改进回报函数的深度强化学习认知网络功率控制方法,步骤如下:
步骤1:系统环境与两个神经网络参数初始化,两个神经网络是表现神经网络和目标神经网络;
步骤2:次用户通过辅助传感器获得环境状态,次用户通过辅助传感节点与环境互动进行学习,并根据改进回报函数取得相应回报,从而获得序列样本,并将序列样本存储至记忆库;
步骤3:从记忆库中均匀采样获得序列样本用于训练表现神经网络参数,表现神经网络目标为表现神经网络输出与目标神经网络输出的平方差最小化;
步骤4:每经过若干轮迭代,序列样本达到记忆库存储量,将表现神经网络的参数赋予目标神经网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军空军通信士官学校,未经中国人民解放军空军通信士官学校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110647638.4/2.html,转载请声明来源钻瓜专利网。