[发明专利]空中网络资源分配方法、装置、电子设备及存储介质在审
申请号: | 202211048190.5 | 申请日: | 2022-08-30 |
公开(公告)号: | CN115567093A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 尹梦君;林巍;王超;李强 | 申请(专利权)人: | 浪潮通信技术有限公司 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04W16/18;H04W64/00;H04W84/06;H04W72/04;H04W4/90;G06N20/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李文清 |
地址: | 266107 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 空中 网络资源 分配 方法 装置 电子设备 存储 介质 | ||
1.一种空中网络资源分配方法,其特征在于,包括:
以最大化空中网络能效为目标,结合目标约束条件,建立空中网络的资源优化问题模型;所述空中网络是基于多类低空平台设备构建的;
采用深度强化学习算法对所述资源优化问题模型进行求解,确定所述空中网络中各个所述低空平台设备的目标部署位置、目标发射功率及各个终端的信道分配信息;所述多类低空平台设备包括空中基站、空中射频单元和毫米波增强无人机;所述信道分配信息为所述终端与各所述低空平台设备之间的信道信息。
2.根据权利要求1所述的空中网络资源分配方法,其特征在于,所述以最大化空中网络能效为目标,结合目标约束条件,建立空中网络的资源优化问题模型,包括:
基于每个终端的传输速率和各个所述终端的信道分配信息,确定所述空中网络的网络容量,并基于所述空中网络的网络容量及所述空中网络的总部署成本,确定单位成本下的网络容量;所述空中网络的总部署成本是基于各个所述低空平台设备的硬件成本和能耗成本确定的;
以所述单位成本下的网络容量最大为优化目标,建立目标函数;所述空中网络能效包括所述单位成本下的网络容量;
基于所述空中网络中各个低空平台设备的发射功率和各个所述终端的信道分配信息,确定所述目标约束条件;
基于所述目标函数和所述目标约束条件,建立所述空中网络的资源优化问题模型。
3.根据权利要求2所述的空中网络资源分配方法,其特征在于,所述采用深度强化学习算法对所述资源优化问题模型进行求解,确定所述空中网络中各个所述低空平台设备的目标部署位置、目标发射功率及各个终端的信道分配信息,包括:
基于所述空中网络中各个所述低空平台设备的状态信息和奖励函数,对所述深度强化学习算法中的深度Q网络模型进行迭代训练,得到所述空中网络能效的最优动作价值收益值;所述奖励函数是基于所述空中网络的网络容量及所述空中网络的总部署成本确定的;
基于所述最优动作价值收益值,确定所述空中网络中各个所述低空平台设备的目标部署位置、目标发射功率及各个终端的信道分配信息。
4.根据权利要求3所述的空中网络资源分配方法,其特征在于,基于所述空中网络中各个所述低空平台设备的状态信息和所述奖励函数,对所述深度强化学习算法中的深度Q网络模型进行迭代训练,得到所述空中网络能效的最优动作价值收益值,包括:
步骤1,根据所述空中网络中各个低空平台设备的状态信息,建立状态空间和动作空间;
步骤2,基于所述状态空间,确定所述空中网络的初始状态,并将每一次训练的时间划分成多个时间间隔;所述初始状态为所述空中网络在第一个时间间隔内的状态;
步骤3,确定所述空中网络在当前时间间隔内的第一状态下执行第一动作后的第一奖励值及下一时间间隔的第二状态;所述第一动作是基于所述动作空间确定的;
步骤4,将所述第一状态、所述第一动作、所述第一奖励值和所述第二状态作为一个数据样本存储到记忆单元,并从所述记忆单元随机抽取一个数据样本,更新所述深度Q网络模型的网络参数;所述第一奖励值是基于所述奖励函数确定的;
步骤5,遍历所述多个时间间隔,执行步骤3至步骤4,完成对所述深度Q网络模型的一次迭代训练,得到训练后的所述空中网络能效的最大动作价值收益值;
步骤6,遍历预设迭代次数,执行步骤3至步骤5,对所述深度Q网络模型进行所述预设迭代次数的训练,得到训练后的所述空中网络能效的最优动作价值收益值;所述最优动作价值收益值为通过最后一次迭代训练得到的所述空中网络能效的最大动作价值收益值。
5.根据权利要求3所述的空中网络资源分配方法,其特征在于,基于所述空中网络中各个所述低空平台设备的状态信息和奖励函数,对所述深度强化学习算法中的深度Q网络模型进行迭代训练,得到所述空中网络能效的最优动作价值收益值之前,还包括:
将每一次训练的时间划分成多个时间间隔;
基于所述空中网络的网络容量及所述空中网络的总部署成本,确定所述网络容量在当前时间间隔相对于上一时间间隔的第一增量以及所述总部署成本在所述当前时间间隔相对于所述上一时间间隔的第二增量;
基于所述第一增量与所述第二增量的比值,确定所述深度强化学习算法中的奖励函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮通信技术有限公司,未经浪潮通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211048190.5/1.html,转载请声明来源钻瓜专利网。