[发明专利]动态频谱环境中基于多智能体强化学习的频率功率联合分配方法有效

申请号：	201210006680.9	申请日：	2012-01-11
公开（公告）号：	CN102448070A	公开（公告）日：	2012-05-09
发明（设计）人：	王金龙;吴启晖;刘鑫;郑学强	申请（专利权）人：	中国人民解放军理工大学
主分类号：	H04W16/14	分类号：	H04W16/14;H04W72/04
代理公司：	南京天华专利代理有限责任公司 32218	代理人：	夏平
地址：	210007 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	动态频谱环境基于智能强化学习频率功率联合分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法，其特征在于实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙：感知决策时隙、传输时隙和确认时隙；感知决策时隙实现主用户状态的感知，并获取传输时隙的频率功率联和决策；传输时隙实现信息传输，并且在接收端估计链路增益，计算当前回报值和度量所受干扰大小；确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息，并且更新多智能体强化学习过程中所需要的行为回报函数，历史干扰表，以及对其他认知链路频率策略的估计值。

2.根据权利要求1所述的动态频谱环境中基于多智能体强化学习的频率功率联合分配方法，其特征在于，包括下列步骤：

步骤1.参数初始化，完成以下工作

1.1网络中每个认知链路i，i∈{1，...，N}初始化其行为回报函数即Q函数Q_i，0(x，fⁱ)＝0，x∈X，fⁱ∈Fⁱ

其中x表示状态变量，而X表示所有状态集合，fⁱ表示与认知链路i以及与其存在干扰关系的所有认知链路的联合频率决策，而Fⁱ则表示联和频率决策fⁱ所有可能组合的联合频率决策集合；

1.2初始化认知链路的历史干扰大小即I值表

I_i，0(x，fⁱ)＝N₀，x∈X，fⁱ∈Fⁱ

其中N₀表示表示噪声功率；

1.3初始化其他认知链路频率策略的估计值

π^j,0=(x,fj)=1/|Fj|,j∈{1,...,N},j≠i]]>

其中f_j表示认知链路j的频率选择，F_j表示认知链路j可选的频率集合，|·|表示求解集合的势，|F_j|表示用户j可选频率集的大小；

步骤2.感知决策时隙之频率决策：实现主用户状态的感知和认知链路的频率决策，通过执行以下分布式方法实现：

在t，t＝0，1，2，...次迭代中，首先，每个认知链路i，i∈{1，...，N}通过执行2.1求解出针对每一个状态和联合频率决策的平均Q函数；然后基于2.1获取的平均Q函数，通过执行2.2求解认知链路的频率策略；根据链路的频率策略，执行2.3获取最终的频率决策；

2.1计算平均Q函数

Q‾i,t(x,fi)=Σf-iQi,t(x,fi,f-i)Πj∈Niπ^j(x,fj)]]>

其中Nⁱ表示与认知链路i构成干扰关系的认知链路集合，而(f_i，f_-i)＝fⁱ是联合频率选择的另一种表示方法；

2.2计算认知链路的频率策略π_i(x，f_i)

其中τ＞0，是温度因子；

2.3基于频率策略获取频率决策f_i，t；

步骤3.感知决策时隙之功率决策：实现主用户状态的感知和认知链路的功率决策，通过执行以下分布式方法实现

在t，t＝1，2，...次迭代中，首先，每个认知链路i，i∈{1，...，N}通过执行3.1求解出功率调整因子，该值的大小表示认知链路对自身发射功率的抑制程度；然后基于功率调整因子，通过执行3.2求解各链路的功率决策；

3.1计算功率调整因子λ_i，t

λi,t=cIi,t(xt+1,fti)hi,i]]>

其中c＞0表示固定常数，由系统参数所决定，h_i，i表示链路i的链路增益，由接收端通过信道估计获取；

3.2计算功率决策p_i，t

pi,t=[1λi,tln2-Ii,t(xt+1,fti)hi,i]piminpimax]]>

其中表示min{b，max(a，c)}，分别表示链路i的最大发射功率和最小发射功率；

步骤4.传输时隙：实现信息传输，并且在接收端估计链路增益，计算当前回报值和度量所受干扰大小，按照以下方式执行

4.1度量当前决策下的干扰大小

Ii(xt+1,ftipti)=N0+Σj∈Nipj,thj,i]]>

其中表示在第t次迭代时，认知链路i以及与其存在干扰关系的所有认知链路的功率决策；为认知链路i在当前状态x_t+1和当前频率功率联合决策下的所受的干扰大小；

4.2计算当前回报值

ri,t+1=0fi,t∉Λi(xt+1)log2{1+pi,thi,i/[ii(xt+1,ftipti)]}-λi,tpi,tfi,t∈Λi(xt+1)]]>

其中Λ_i(x_t+1)表示在状态x_t+1时，链路i的可用频率集合；

步骤5.确认时隙：用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息，并且更新多智能体强化学习过程中所需要的行为回报函数，历史干扰表，以及对其他认知链路频率策略的估计值：

5.1Q函数更新

Qi,t+1(xt,fti)=Qi,t(xt,fti)+αt[ri,t+1+γmaxfiQi,t(xt+1,fi)-Qi,t(xt,fti)]]]>

其中α_t表示学习速率，γ表示学习方法的折扣因子。

5.2I值表更新

5.3其他链路策略估计更新

π^j,t(x,fj)=π^j,t-1(x,fj)+δWtj(x,fj)=1π^j,t-1(x,fj)-δ||Fi||-1Wtj(x,fj)=0]]>

其中δ＞0为一可调整的常数，为随机变量表示链路i在状态x时，所观察到链路j选取频率策略f_j这一事件，为1则表示该事件出现，为0则表示该事件未出现。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军理工大学，未经中国人民解放军理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210006680.9/1.html，转载请声明来源钻瓜专利网。

上一篇：高效环保高强巢型支撑保护剂及其制备方法
下一篇：一种涡螺双旋组合式上料方法及装置

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W16-00 网络规划，例如覆盖或业务量规划工具；网络配置，例如资源划分或小区结构
H04W16-02 .在各网络组成部分当中的资源划分，例如，再用划分
H04W16-14 .频谱共享装置
H04W16-18 .网络规划工具
H04W16-22 .业务量模拟工具或模型
H04W16-24 .小区结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]动态频谱环境中基于多智能体强化学习的频率功率联合分配方法有效

专利文献下载