[发明专利]基于MAPPO算法多无人机与用户协同通信优化方法有效
| 申请号: | 202110806485.3 | 申请日: | 2021-07-16 |
| 公开(公告)号: | CN113359480B | 公开(公告)日: | 2022-02-01 |
| 发明(设计)人: | 赵建伟;吴官翰;贾维敏;张峰干;姜楠;王连锋;谭力宁;金伟;金国栋;沈涛;张聪;何芳 | 申请(专利权)人: | 中国人民解放军火箭军工程大学 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 西安创知专利事务所 61213 | 代理人: | 卫苏晶 |
| 地址: | 710025 陕西*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 mappo 算法 无人机 用户 协同 通信 优化 方法 | ||
1.一种基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于,该方法包括以下步骤:
步骤一、无人机网络模型和用户网络模型的建立:
步骤101、设定无人机Actor网络的参数为φ,无人机Critic网络的参数为ω1,用户Actor网络的参数为θ,用户Critic网络的参数为ω2;
步骤102、设定无人机Actor网络的参数φ的初始值为φ(0),无人机Critic网络的参数ω1的初始值为ω1(0),用户Actor网络的参数θ的初始值为θ(0),用户Critic网络的参数ω2的初始值为ω2(0);其中,φ(0)、ω1(0)、θ(0)和ω2(0)满足神经网络正交初始化;
步骤二、无人机和用户场景设置:
步骤201、建立二维直角坐标系OXY;其中,二维直角坐标系和地面区域D重合;
步骤202、设定地面区域D中存在N个用户,且用户集合为其中,第t个时刻第n个用户的位置坐标为n和N均为正整数,且1≤n≤N,地面区域D位于OXY的第一象限,且原点O和地面区域D的左下角重合,t为正整数;
步骤203、设定地面区域D的上空存在M架无人机,且无人机集合为且其中,M架无人机相对地面区域D的部署高度均为h;
步骤三、无人机和用户的观测状态的获取:
步骤301、采用计算机设定第t个时刻第n个用户的观测状态为且其中,表示第t个时刻第n个用户的坐标位置,表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置,m和M均为正整数,且1≤m≤M;sm(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目,j为正整数,且j=1,…,w;w为正整数,且w<t;
步骤302、将第t个时刻第n个用户的观测状态输入初始值为θ(0)的用户Actor网络中,用户Actor网络输出第m架无人机的预激活分量χm(θ(0));
步骤303、采用计算机根据得到第t个时刻第n个用户选择第m架无人机动作的离散概率分布其中,exp(·)表示以自然常数e为底的指数函数,表示第t个时刻第n个用户选择无人机的动作;
步骤304、第t个时刻第n个用户根据离散概率分布采样动作并选择相应的无人机接入,并获取第t个时刻第n个用户选择无人机的动作的概率
步骤305、根据用户选择及无人机自身状态,采用计算机设定第t个时刻第m架无人机的观测状态为且其中,表示第t个时刻第m架无人机在OXY下的二维坐标位置,表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置,m′为正整数,m′≠m,且σm,n(t)表示接入第m架无人机的第n个用户的状态;
步骤306、采用计算机将第t个时刻第m架无人机的观测状态输入初始值为φ(0)的无人机Actor网络中,无人机Actor网络输出第t个时刻第m架无人机的观测状态下第t个时刻第m架无人机的动作的概率分布其中,服从贝塔分布,即αφ和βφ均为贝塔分布的形状参数;表示第t个时刻第m架无人机的动作;
根据采样动作得到第t个时刻第m架无人机给第n个用户的发射功率输出值第t个时刻第m架无人机给第n个用户的带宽输出值和第t个时刻第m架无人机的飞行方位角以及第t个时刻第m架无人机的动作的概率
步骤307、采用计算机设定作为第t个时刻第m架无人机的动作掩码,采用计算机令和其中,表示第t个时刻第m架无人机给第n个用户掩码后功率值,表示第t个时刻第m架无人机给第n个用户掩码后带宽值;
步骤308、采用计算机根据得到第t个时刻第m架无人机给第n个用户分配的发射功率动作分量pm,n(t);
采用计算机根据得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量bm,n(t);其中,bm(t)表示第t个时刻第m架无人机可支配的带宽资源,且Btotal表示所有UAV共享的总带宽资源,sm(t)表示接入第m架无人机的用户的总数,bmin表示最小可分带宽;Ptotal表示每架无人机的发射的总发射功率;
步骤309、采用计算机得到第t个时刻第m架无人机的动作且其中,表示第t个时刻第m架无人机的飞行方位角;
步骤30A、将第t个时刻第n个用户的观测状态为和第t个时刻第m架无人机的观测状态为合并记作第t个时刻第i个智能体的观测状态其中,智能体包括M架无人机和N个用户,i为正整数,且
将第t个时刻第n个用户选择无人机的动作和第t个时刻第m架无人机的动作合并记作第t个时刻第i个智能体的动作
将第t个时刻第n个用户选择无人机的动作的概率和第t个时刻第m架无人机的动作的概率合并记作第i个智能体的动作概率
步骤四、无人机和用户的全局状态的获取:
步骤401、采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);
步骤402、采用计算机根据得到第t个时刻第n个用户的通信速率
步骤403、采用计算机设定第t个时刻第m架无人机的全局状态为且
步骤404、采用计算机设定第t个时刻第n个用户的全局状态为其中,表示第t个时刻除去第n个用户后其它用户在OXY下的坐标位置,n′为正整数,且n′≠n,且
步骤405、将第t个时刻第m架无人机的全局状态和第t个时刻第n个用户的全局状态合并记作第t个时刻第i个智能体的全局状态其中,i为正整数,且
步骤五、无人机和用户的奖励的获取:
步骤501、采用计算机根据得到第t个时刻N个用户的平均通信速率cmean(t);
步骤502、采用计算机根据得到第t个时刻第m架无人机的公平指数fm(t);
步骤503、采用计算机根据得到第t个时刻第m架无人机的奖励其中,rd表示无人机的奖励系数,κr为fm(t)的指数参数,表示第t个时刻第m架无人机的边界惩罚项;
步骤504、采用计算机根据得到第t个时刻第n个用户的奖励其中,rc表示用户的奖励系数;
步骤505、采用计算机将第t个时刻第n个用户的奖励和第t个时刻第m架无人机的奖励合并记作第t个时刻第i个智能体的奖励
步骤六、储存经验元组:
步骤601、采用计算机将作为第t个时刻第i个智能体的经验元组,并将其存入缓存区中;
步骤602、重复步骤三至步骤601,获取下一个时刻的经验元组,并将其存入缓存区中,直至t=Tmax时,完成一个回合的数据存储;其中,Tmax表示每个回合的总时刻数;
步骤603、重复步骤602,进行下一个回合的数据存储,直至缓存区中经验元组的数量为B,得到第一轮训练数据;其中,B大于Tmax;
步骤七、MAPPO算法迭代优化网络模型的参数:
步骤701、输入第一轮训练数据,计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化,得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值;
同时,采用计算机利用MAPPO算法对中无人机Critic网络ω1的参数和用户Critic网络ω2的参数进行梯度下降优化,得到无人机Critic网络的参数ω1的第一轮优化值和用户Critic网络的参数ω2的第一轮优化值;
步骤702、按照步骤三至步骤603所述的方法,得到下一轮训练数据;
步骤703、输入下一轮训练数据,按照步骤701所述的方法,以上一轮优化值作为参数初始值,进行下一轮的优化更新,得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω1的下一轮优化值和用户Critic网络的参数ω2的下一轮优化值;
步骤704、按照步骤三至步骤603所述的方法,完成设定的最大回合Th的数据存储,得到第P轮训练数据;其中,P为正整数;
步骤705、输入第P轮训练数据,并按照步骤701所述的方法,以上一轮优化值作为参数初始值,得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮最后轮优化值;
步骤八、多无人机和多用户协同通信优化预测:
步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮优化值,得到优化后的网络模型;
步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态,并输入优化后的网络模型,得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军火箭军工程大学,未经中国人民解放军火箭军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110806485.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:容器及其侧板
- 下一篇:一种带有网络热点服务的共享充电宝移动式集成柜





