[发明专利]基于政策规划约束Q学习的动态频谱接入方法无效
申请号: | 200910029116.7 | 申请日: | 2009-01-13 |
公开(公告)号: | CN101466111A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 王金龙;吴启晖;刘琼俐;丁茜;张玉明 | 申请(专利权)人: | 中国人民解放军理工大学通信工程学院 |
主分类号: | H04W24/00 | 分类号: | H04W24/00;H04B17/00 |
代理公司: | 南京天华专利代理有限责任公司 | 代理人: | 夏 平 |
地址: | 210016*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 政策 规划 约束 学习 动态 频谱 接入 方法 | ||
技术领域
本发明涉及一种认知无线电领域,具体说是一种动态频谱接入方法。
背景技术
认知无线电(cognitive radio,简称CR)是一种新的提高频谱利用率的技术,它可以将一些区域中暂时没有被授权用户(licensed users,简称LU)使用的频段借给未授权用户(也称作认知用户cognitive user,简称CU)使用来提高频谱利用率。认知无线电是一个智能的无线通信系统,它能够通过对无线电环境的学习,相应地动态调整其传输参数。
近年来,认知无线电动态频谱接入技术成为一个热门的问题,受到广泛的关注。研究人员针对动态频谱接入在频谱利用率、冲突概率、频谱利用公平性等方面进行了大量研究,但这些算法均未涉及频谱接入的自主性问题,这一点对于认知无线电所要面对的复杂系统来说是很重要的。考虑到业务需求在空间和时间上的动态变化及其不规则性,一个设计好的不具备学习能力的动态频谱接入算法一般对环境有很多要求、很难具有普适性。为实现对频谱资源的分布式自主接入以减少人力参与,需要网络和用户具有能根据实际运行情况不断修正其接入策略的自主学习能力。具备不需人为干预的熟练的决策能力的认知无线电是目前研究的主要技术基础,未来频谱接入应当是自主的、动态的、自适应的。
学习能力是认知无线电一个重要的特征,学习是人类获取知识的主要形式,是基本的认知活动,是经验与知识的积累过程,也是人类具有智能、提高智能水平的基本途径。用户具有智能,在无人干预的情况下,自主接入未知的环境、自主完成通信任务已经成为通信技术发展和在各领域广泛应用的迫切需求。使agent(智能用户)能从环境中学习,即自动获取知识、积累经验、不断更新和扩展知识,具有自学习、自适应能力将会成为一个研究的热点。
强化学习是一种具有自学习能力的“试错”的在线学习技术,学习者通过与环境不断交互获得学习经验,进而逐步改进其动作策略。强化学习以其灵活性和自适应性,广泛应用于机器人和自动控制领域,并被引入无线蜂窝网络的动态信道分配以及传感器网络中的可重配置问题中。强化学习由于不需环境任何信息就可以进行,已被证明能充分利用与环境交互中所得到的信息,能动态适应环境变化。将强化学习算法引入到动态频谱接入中,不需对环境建立复杂的数学模型就可以实现认知引擎对频谱的选择以达到避免干扰授权用户的目标,是一种不错的选择。
由于强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的动作序列,实现动态环境下的在线学习,因此被广泛用于agent的智能决策,取得了显著的成果。但在对认知无线网络和其应用环境进行建模时出现了一些问题,首先,随着网络中用户(agent)数量的增多,每个用户的状态空间呈指数增加,即便是最简单的问题的学习也变得异常困难;其次,认知无线网络本身的复杂性和环境的快变特性也使得传统的Q学习在学习速度上不能胜任;最后,Q学习算法必须通过反复实验的方法来学习,算法效率不高,而且在未知环境中的盲目学习会冒一定的风险。
发明内容
本发明的目的就是为了解决上述问题,提出一种能提高系统整体性能并可克服智能体学习的盲目性、提高学习效率、加快收敛速度的基于政策规划约束算法的动态频谱接入方法。
本发明是采用以下技术方案实现的:
一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,首先认知用户在政策规划约束下,利用感知到的环境信息和专家经验,用模糊综合决策方法得到Q学习的先验知识,接着包括下列步骤:
步骤1,认知用户感知环境状态,并在包含政策规划和数据的知识库的指导下对频谱状态空间进行划分,选出合理和合法的状态空间,剔除政策规划不允许认知用户使用的状态空间;
步骤2,根据政策规划的指导,依据环境先验知识对步骤1得出的合理和合法的状态空间的进行分等级模块化;
步骤3,对每个等级模块,依据Q学习的先验知识,使用模糊综合决策,完成Q学习前的Q表初始化工作,并将得出的Q值存入Q值表征模块;
步骤4,初始化其他工作参数,每个模块开始单独的进行Q学习算法,根据学习规则结合动作选择算法,综合考虑所有学习模块进行决策,得出认知用户最终要采取的动作,选择频谱进行接入;
步骤5,判断选择接入的频谱是否和授权用户冲突,根据判断设置回报值,若发生冲突则计算冲突概率,否则进入步骤6;
步骤6,判断环境的政策、规划和数据是否发生改变,如果发生改变,更新环境政策规划知识库,并根据政策、规划和数据的改变调整学习的Q值;
步骤7,重复步骤4~6,直到学习收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军理工大学通信工程学院,未经中国人民解放军理工大学通信工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910029116.7/2.html,转载请声明来源钻瓜专利网。