[发明专利]一种基于联邦学习的频谱资源管理分配方法有效
申请号: | 202110279397.2 | 申请日: | 2021-03-16 |
公开(公告)号: | CN113038616B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 张科;袁鑫 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;H04L41/142 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 李林合 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联邦 学习 频谱 资源管理 分配 方法 | ||
1.一种基于联邦学习的频谱资源管理分配方法,其特征在于,包括以下步骤:
S1、终端设备从环境中收集状态信息;其中收集的状态信息包括当前时刻信道增益信息gijk(t)、上一时刻信道增益信息gijk(t-1)、上一时刻的动作信息ak(t-1)和上一时刻的信道干扰信息Iijk(t-1),表示为:
Stk={{gijk(t)}i∈N,j∈Bi,{gijk(t-1)}i∈N,j∈Bi,{Iijk(t-1)}i∈N,j∈Bi,ak(t-1)};
其中收集的上一时刻信道干扰信息表示为:
其中为上一时刻终端设备m对i频段的j子信道的动作信息,pm(t-1)为上一时刻终端设备m的发射功率,为上一时刻终端设备m在i频段的j子信道的信道增益;
S2、终端设备判断步骤S1收集的当前时刻状态信息和上一时刻状态信息变化差值是否超过预设差值门限值,若是,执行步骤S3,否则返回步骤S1;
S3、终端设备根据当前状态信息对主网络中的行动者网络信道传输的频谱、子信道和传输功率进行决策;
S4、终端设备收集决策后下一时刻的状态信息和奖励信息,并将当前时刻状态信息、当前时刻动作、下一时刻状态信息和奖励信息组成经验元组,把经验元组放入记忆池;其中奖励信息表示为:
其中xijk(t)为当前时刻设备k对i频段的j子信道的选择,Wij为频段i的j子信道的带宽,γijk(t)为当前设备k在频段i的j子信道的信干噪比;
奖励信息表达式中的约束条件为:
S5、终端设备利用所述步骤S4放入记忆池的经验元组采用梯度下降法训练主网络中的行动者网络和评论家网络,包括以下分步骤:
S51、终端设备从经验池中小批量的选取经验元组,利用行动者网络和评论家网络计算相应的损失函数值,行动者网络的损失函数表达式为:
J(θπ)=-Q(s,a;θ)
评论家网络的损失函数表达式为:
L(θ)=[r(s,a)+γQ(s',π(s';θπT);θT)-Q(s,a;θ)]2
其中r(s,a)为当前状态下采取的动作所获得的奖励,γ为折扣因子,θ为主评论家网络的参数,θT为评论家网络的参数,s'为t+1时刻状态,θπT为目标行动者网络参数;
S52、计算行动者网络损失函数的梯度,其表达式为:
计算评论家网络损失函数的梯度,其表达式为:
S53、更新主网络的行动者网络参数,其表达式为:
其中απ为行动者网络参数的学习率;
更新主网络的评论家网络参数,其表达式为:
其中αQ为评论家网络参数的学习率;
S6、判断终端设备累计梯度是否达到预设梯度门限值,若是,执行步骤S7,否则返回所述步骤S1;
S7、终端设备将其主网络参数上传至基站;
S8、基站判断其收集的主网络参数量是否达到预设收集门限值,若是,根据设定权重将所有的主网络参数进行聚合并广播给所有终端设备并执行步骤S9,否则继续收集主网络参数;
S9、终端设备根据接收到的聚合参数更新其主网络和目标网络的参数,并返回所述步骤S1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110279397.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分散灰染料组合物
- 下一篇:一种半干法磨米的工艺