[发明专利]一种面向智慧港口的UAV辅助通信能效优化方法及装置有效
| 申请号: | 202110498696.5 | 申请日: | 2021-05-08 |
| 公开(公告)号: | CN113316169B | 公开(公告)日: | 2023-01-31 |
| 发明(设计)人: | 张海君;黄庙林;隆克平 | 申请(专利权)人: | 北京科技大学 |
| 主分类号: | H04W24/02 | 分类号: | H04W24/02;H04W24/06;H04B7/185 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;付忠林 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 智慧 港口 uav 辅助 通信 能效 优化 方法 装置 | ||
1.一种面向智慧港口的UAV辅助通信能效优化方法,其特征在于,包括:
构建采用无人机UAV搭载智能反射表面IRS进行辅助通信的MISO-NOMA通信系统模型;其中,在所述通信系统模型中,在用户对之间采用NOMA技术,UAV搭载IRS充当中继;在发射信号采用迫零预编码;在接收信号处采用SIC技术解码期望信号;
基于构建的通信系统模型,将MISO-NOMA通信系统中的UAV轨迹移动优化问题转化为具有用户速率约束的IRS相移矩阵优化问题;
以最大化用户和速率为目标,以IRS充当智能体,采用深度强化学习算法来训练智能体,实现IRS相移矩阵的优化,得到最优的IRS相移矩阵,以减少UAV进行辅助通信时的轨迹移动,达到降低无人机能耗的目的;
所述深度强化学习算法为深度确定性策略梯度DDPG算法;
采用深度强化学习算法来训练智能体实现IRS相移矩阵的优化,包括:
步骤1:初始化系统的状态空间、动作空间以及深度神经网络参数;
步骤2:智能体根据行为策略选择动作并执行;
步骤3:智能体执行动作后,返回奖励以及新的状态,将状态转化过程放入经验缓存空间;
步骤4:在经验缓存空间中采样预设数量的状态转移数据,作为训练Q网络和训练策略网络的训练数据;
步骤5:计算训练Q网络梯度,计算策略网络的策略梯度;
步骤6:更新目标神经网络参数;
初始化系统的状态空间、动作空间以及深度神经网络参数,包括:
将用户设备及信道状态资源建模为有限状态马尔可夫模型;
为策略网络和Q网络各创建两个神经网络拷贝用于网络学习及参数更新;
智能体根据行为策略选择动作,包括:
智能体根据行为策略选择UAV位置的移动和IRS相移矩阵的调整;
智能体执行动作后,返回奖励,包括:
判断是否满足预设条件,当满足预设条件时,根据环境获得即时奖励;其中,预设条件包括:1)每个用户在每个时隙达到最低用户速率;2)IRS相移矩阵设计满足无源发射;3)无人机总能耗满足节能需求;
即时奖励表达式为:
其中,ξk(t)用于反应用户最低速率保障,时,即园区内某用户速率大于等于其最小用户速率需求,取值为1,反之取值为0;C为常数,用于保证传输速率不满足的惩罚函数具有高值;E(t)为无人机能耗值;
计算训练Q网络梯度,计算策略网络的策略梯度,包括:
采用随机梯度下降方法,计算训练策略网络、目标策略网络以及训练Q网络梯度,用于更新目标神经网络参数。
2.一种面向智慧港口的UAV辅助通信能效优化装置,其特征在于,包括:
场景构建模块,用于构建采用无人机UAV搭载智能反射表面IRS进行辅助通信的MISO-NOMA通信系统模型;其中,在所述通信系统模型中,在用户对之间采用NOMA技术,UAV搭载IRS充当中继;在发射信号采用迫零预编码;在接收信号处采用SIC技术解码期望信号;
问题转化模块,用于基于构建的通信系统模型将MISO-NOMA通信系统中的UAV轨迹移动优化问题转化为具有用户速率约束的IRS相移矩阵优化问题;
能耗优化模块,用于以最大化用户和速率为目标,以IRS充当智能体,采用深度强化学习算法训练智能体实现IRS相移矩阵的优化,得到最优的IRS相移矩阵,以减少UAV进行辅助通信时的轨迹移动,达到降低无人机能耗的目的;
所述深度强化学习算法为深度确定性策略梯度DDPG算法;
采用深度强化学习算法来训练智能体实现IRS相移矩阵的优化,包括:
步骤1:初始化系统的状态空间、动作空间以及深度神经网络参数;
步骤2:智能体根据行为策略选择动作并执行;
步骤3:智能体执行动作后,返回奖励以及新的状态,将状态转化过程放入经验缓存空间;
步骤4:在经验缓存空间中采样预设数量的状态转移数据,作为训练Q网络和训练策略网络的训练数据;
步骤5:计算训练Q网络梯度,计算策略网络的策略梯度;
步骤6:更新目标神经网络参数;
初始化系统的状态空间、动作空间以及深度神经网络参数,包括:
将用户设备及信道状态资源建模为有限状态马尔可夫模型;
为策略网络和Q网络各创建两个神经网络拷贝用于网络学习及参数更新;
智能体根据行为策略选择动作,包括:
智能体根据行为策略选择UAV位置的移动和IRS相移矩阵的调整;
智能体执行动作后,返回奖励,包括:
判断是否满足预设条件,当满足预设条件时,根据环境获得即时奖励;其中,预设条件包括:1)每个用户在每个时隙达到最低用户速率;2)IRS相移矩阵设计满足无源发射;3)无人机总能耗满足节能需求;
即时奖励表达式为:
其中,ξk(t)用于反应用户最低速率保障,时,即园区内某用户速率大于等于其最小用户速率需求,取值为1,反之取值为0;C为常数,用于保证传输速率不满足的惩罚函数具有高值;E(t)为无人机能耗值;
计算训练Q网络梯度,计算策略网络的策略梯度,包括:
采用随机梯度下降方法,计算训练策略网络、目标策略网络以及训练Q网络梯度,用于更新目标神经网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110498696.5/1.html,转载请声明来源钻瓜专利网。





