[发明专利]一种无线多跳网络中分布式信道分配方法在审
申请号: | 202111318928.0 | 申请日: | 2021-11-09 |
公开(公告)号: | CN114024639A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 雷建军;尚凤军;王颖;刘捷;周盈 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04B17/382 | 分类号: | H04B17/382;H04B17/391 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无线 网络 分布式 信道 分配 方法 | ||
1.一种无线多跳网络中分布式信道分配方法,其特征在于,采用至少包括物理设备层、计算层和网络服务层的物理架构,物理设备层由随机部署在网络中的n个无线节点组成一个多跳的无线通信网络,将多信道分配问题建模为POMDP问题,利用异步DRL模型实现分布式的信道分配,每个节点作为一个自治的智能体Agent,通过本地决策模块与不确定的网络环境进行交互,计算层的汇聚节点负责对网络中其他站点所收集的数据进行汇聚、分析和处理,且该节点具有边缘计算功能,即可卸载节点的计算任务,并可基于节点分布式采集的经验信息训练异步DRL模型,无线节点定期从汇聚节点处更新本地决策模块参数。
2.根据权利要求1所述的一种无线多跳网络中分布式信道分配方法,其特征在于,将多信道分配问题建模为POMDP问题,即Agent观察当前网络状态s并在时间周期t执行动作a,并在执行动作a后以状态转移概率P转移到下一个时间周期的网络状态s′,并从环境中获得相应的奖励R,则POMDP问题表示为:
M=S,A,P,r,γ;
其中,M表示POMDP问题模型;S是状态集合表示状态空间;A是动作集合表示动作空间,其中动作a∈A表示节点欲切换的信道编号;r为奖励函数;γ为折扣因子。即在给定环境状态s∈S,Agent执行动作a∈A,则环境状态将从s迁移到s′,即s→s′,同时从环境获得相应的回报R。
3.根据权利要求2所述的一种无线多跳网络中分布式信道分配方法,其特征在于,节点i在第t个时间周期观察到的环境状态表示为:
其中,表征了节点i的邻居节点对每个无线信道的占用情况,即各信道潜在的干扰度;K是可用信道数量,N是指节点数量;表示节点i的邻居节点在占第t个时间周期对信道j的占用情况,表示存在节点i的邻居节点使用信道j,表示存在节点i的邻居节点使用信道j;ni,o为节点i的邻居节点总数。
4.根据权利要求1所述的一种无线多跳网络中分布式信道分配方法,其特征在于,当节点在执行动作a后,并从状态s转移到下一个状态s′时从环境中获得的奖励函数可表示为:
其中,R(s,a)表示当节点i在第t个数据周期将信道切换为信道k时从环境获得的奖励值;表示当前周期是否存在节点i的邻居节点使用信道k:若不存在节点i的邻居节点使用信道k,则反之,为在第t个时间周期,节点i的邻居节点中使用信道k的节点数量;为节点i在信道k上进行数据传输的成功传输概率。
5.根据权利要求2所述的一种无线多跳网络中分布式信道分配方法,其特征在于,部署在计算层的异步DRL模型包括当前网络、目标网络、误差计算模块和经验池,以及部署在无线节点本地的决策模块,本地决策模块的网络结构与当前网络相同,本地决策模块的参数定期从边缘节点处获取;其中:
目标网络固定网络参数并获取目标值函数,当前网络用于评估策略更新参数,逼近值函数;
当前网络的参数θ每一时间周期都更新;目标网络的参数θ-每隔固定多个时间周期更新一次,期间保持不变;
经验池中的经验e=s,a,r,s′,s,s′∈S,a∈A,,由网络中的节点异步地从无线多跳网络环境中采集;
误差计算模块通过目标网络和当前网络计算的TD偏差来更新当前网络的参数;此外,每隔固定时间间隔将当前网络的参数拷贝到目标网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111318928.0/1.html,转载请声明来源钻瓜专利网。