[发明专利]基于政策规划约束Q学习的动态频谱接入方法无效
申请号: | 200910029116.7 | 申请日: | 2009-01-13 |
公开(公告)号: | CN101466111A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 王金龙;吴启晖;刘琼俐;丁茜;张玉明 | 申请(专利权)人: | 中国人民解放军理工大学通信工程学院 |
主分类号: | H04W24/00 | 分类号: | H04W24/00;H04B17/00 |
代理公司: | 南京天华专利代理有限责任公司 | 代理人: | 夏 平 |
地址: | 210016*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 政策 规划 约束 学习 动态 频谱 接入 方法 | ||
1.一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,首先认知用户在政策规划约束下,利用感知到的环境信息和专家经验,用模糊综合决策方法得到Q学习的先验知识,接着包括下列步骤:
步骤1,认知用户感知环境状态,并在包含政策规划和数据的知识库的指导下对频谱状态空间进行划分,选出合理和合法的状态空间,剔除政策规划不允许认知用户使用的状态空间;
步骤2,根据政策规划的指导,依据环境先验知识对步骤1得出的合理和合法的状态空间进行分等级模块化;
步骤3,对每个等级模块,依据Q学习的先验知识,使用模糊综合决策,完成Q学习前的Q表初始化工作,并将得出的Q值存入Q值表征模块;
步骤4,初始化其他工作参数,每个模块开始单独的进行Q学习算法,根据学习规则结合动作选择算法,综合考虑所有学习模块进行决策,得出认知用户最终要采取的动作,选择频谱进行接入;
步骤5,判断选择接入的频谱是否和授权用户冲突,根据判断设置回报值,若发生冲突则计算冲突概率,否则进入步骤6;
步骤6,判断环境的政策、规划和数据是否发生改变,如果发生改变,更新环境政策规划知识库,并根据政策、规划和数据的改变调整学习的Q值;
步骤7,重复步骤4~6,直到学习收敛。
2.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,先验知识是已知的优化算法,或是学习系统以前的学习经验,存储在知识库中,可以随着学习过程更新。
3.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,所述步骤3中使用模糊综合决策实现Q值初始化的具体步骤如下:
1)、设定因素集U=(u1,u2,…,un)和决策集V=(v1,v2,…,vm),n表示所有影响决策的因素个数,m表示决策集中所有决策的个数,因素集是影响决策的各个因素的集合,设计时应包括所有主要因素,决策集是决策者可能做出的所有决策的集合;
2)、设计单因素决断f:U→F(v),建立从U到V的模糊映射,构造模糊评价矩阵Rf,如下式所示,Rf可由模糊矩阵Mm×n表示,Rf的元素rij是指因素ui对于决策vj的评价,i,j是Rf矩阵中元素下标,i为{1,2,…,n},j为{1,2,…,m},模糊评价矩阵参照专家经验设定,设计成常数矩阵或函数矩阵;
3)、设定因素权重集W=(w1,w2,…,wn),权重集W反映各个因素影响决策的程度,由决策者根据经验直接给出,或用某种隶属度方法求得;
4)、根据因素集U、决策集V和模糊评价矩阵Rf,通过权重集W,进行模糊运算,得到综合决断B=W⊙Rf,决断向量B的元素,反映了各个决策按照全体目标综合衡量的优越程度,以向量B为依据便可按照最大隶属度的原则选出最优方案或者排列各个方案的优先次序,作为采取不同决策的一个参考;
5)、利用“归一”方法将模糊综合决策的结论转化为Q学习的先验知识,对Q值进行初始化,计算各等级模块下所有Q值,
Q*(s,a)=arg max∑iQ(s,a)
其中,i为等级模块的数目,Q*(s,a)表示i个等级模块下a动作的总体回报估计的最大值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军理工大学通信工程学院,未经中国人民解放军理工大学通信工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910029116.7/1.html,转载请声明来源钻瓜专利网。