[发明专利]基于MAPPO算法多无人机与用户协同通信优化方法有效

专利信息
申请号: 202110806485.3 申请日: 2021-07-16
公开(公告)号: CN113359480B 公开(公告)日: 2022-02-01
发明(设计)人: 赵建伟;吴官翰;贾维敏;张峰干;姜楠;王连锋;谭力宁;金伟;金国栋;沈涛;张聪;何芳 申请(专利权)人: 中国人民解放军火箭军工程大学
主分类号: G05B13/04 分类号: G05B13/04
代理公司: 西安创知专利事务所 61213 代理人: 卫苏晶
地址: 710025 陕西*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 mappo 算法 无人机 用户 协同 通信 优化 方法
【权利要求书】:

1.一种基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于,该方法包括以下步骤:

步骤一、无人机网络模型和用户网络模型的建立:

步骤101、设定无人机Actor网络的参数为φ,无人机Critic网络的参数为ω1,用户Actor网络的参数为θ,用户Critic网络的参数为ω2

步骤102、设定无人机Actor网络的参数φ的初始值为φ(0),无人机Critic网络的参数ω1的初始值为ω1(0),用户Actor网络的参数θ的初始值为θ(0),用户Critic网络的参数ω2的初始值为ω2(0);其中,φ(0)、ω1(0)、θ(0)和ω2(0)满足神经网络正交初始化;

步骤二、无人机和用户场景设置:

步骤201、建立二维直角坐标系OXY;其中,二维直角坐标系和地面区域D重合;

步骤202、设定地面区域D中存在N个用户,且用户集合为其中,第t个时刻第n个用户的位置坐标为n和N均为正整数,且1≤n≤N,地面区域D位于OXY的第一象限,且原点O和地面区域D的左下角重合,t为正整数;

步骤203、设定地面区域D的上空存在M架无人机,且无人机集合为且其中,M架无人机相对地面区域D的部署高度均为h;

步骤三、无人机和用户的观测状态的获取:

步骤301、采用计算机设定第t个时刻第n个用户的观测状态为且其中,表示第t个时刻第n个用户的坐标位置,表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置,m和M均为正整数,且1≤m≤M;sm(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目,j为正整数,且j=1,…,w;w为正整数,且w<t;

步骤302、将第t个时刻第n个用户的观测状态输入初始值为θ(0)的用户Actor网络中,用户Actor网络输出第m架无人机的预激活分量χm(θ(0));

步骤303、采用计算机根据得到第t个时刻第n个用户选择第m架无人机动作的离散概率分布其中,exp(·)表示以自然常数e为底的指数函数,表示第t个时刻第n个用户选择无人机的动作;

步骤304、第t个时刻第n个用户根据离散概率分布采样动作并选择相应的无人机接入,并获取第t个时刻第n个用户选择无人机的动作的概率

步骤305、根据用户选择及无人机自身状态,采用计算机设定第t个时刻第m架无人机的观测状态为且其中,表示第t个时刻第m架无人机在OXY下的二维坐标位置,表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置,m′为正整数,m′≠m,且σm,n(t)表示接入第m架无人机的第n个用户的状态;

步骤306、采用计算机将第t个时刻第m架无人机的观测状态输入初始值为φ(0)的无人机Actor网络中,无人机Actor网络输出第t个时刻第m架无人机的观测状态下第t个时刻第m架无人机的动作的概率分布其中,服从贝塔分布,即αφ和βφ均为贝塔分布的形状参数;表示第t个时刻第m架无人机的动作;

根据采样动作得到第t个时刻第m架无人机给第n个用户的发射功率输出值第t个时刻第m架无人机给第n个用户的带宽输出值和第t个时刻第m架无人机的飞行方位角以及第t个时刻第m架无人机的动作的概率

步骤307、采用计算机设定作为第t个时刻第m架无人机的动作掩码,采用计算机令和其中,表示第t个时刻第m架无人机给第n个用户掩码后功率值,表示第t个时刻第m架无人机给第n个用户掩码后带宽值;

步骤308、采用计算机根据得到第t个时刻第m架无人机给第n个用户分配的发射功率动作分量pm,n(t);

采用计算机根据得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量bm,n(t);其中,bm(t)表示第t个时刻第m架无人机可支配的带宽资源,且Btotal表示所有UAV共享的总带宽资源,sm(t)表示接入第m架无人机的用户的总数,bmin表示最小可分带宽;Ptotal表示每架无人机的发射的总发射功率;

步骤309、采用计算机得到第t个时刻第m架无人机的动作且其中,表示第t个时刻第m架无人机的飞行方位角;

步骤30A、将第t个时刻第n个用户的观测状态为和第t个时刻第m架无人机的观测状态为合并记作第t个时刻第i个智能体的观测状态其中,智能体包括M架无人机和N个用户,i为正整数,且

将第t个时刻第n个用户选择无人机的动作和第t个时刻第m架无人机的动作合并记作第t个时刻第i个智能体的动作

将第t个时刻第n个用户选择无人机的动作的概率和第t个时刻第m架无人机的动作的概率合并记作第i个智能体的动作概率

步骤四、无人机和用户的全局状态的获取:

步骤401、采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);

步骤402、采用计算机根据得到第t个时刻第n个用户的通信速率

步骤403、采用计算机设定第t个时刻第m架无人机的全局状态为且

步骤404、采用计算机设定第t个时刻第n个用户的全局状态为其中,表示第t个时刻除去第n个用户后其它用户在OXY下的坐标位置,n′为正整数,且n′≠n,且

步骤405、将第t个时刻第m架无人机的全局状态和第t个时刻第n个用户的全局状态合并记作第t个时刻第i个智能体的全局状态其中,i为正整数,且

步骤五、无人机和用户的奖励的获取:

步骤501、采用计算机根据得到第t个时刻N个用户的平均通信速率cmean(t);

步骤502、采用计算机根据得到第t个时刻第m架无人机的公平指数fm(t);

步骤503、采用计算机根据得到第t个时刻第m架无人机的奖励其中,rd表示无人机的奖励系数,κr为fm(t)的指数参数,表示第t个时刻第m架无人机的边界惩罚项;

步骤504、采用计算机根据得到第t个时刻第n个用户的奖励其中,rc表示用户的奖励系数;

步骤505、采用计算机将第t个时刻第n个用户的奖励和第t个时刻第m架无人机的奖励合并记作第t个时刻第i个智能体的奖励

步骤六、储存经验元组:

步骤601、采用计算机将作为第t个时刻第i个智能体的经验元组,并将其存入缓存区中;

步骤602、重复步骤三至步骤601,获取下一个时刻的经验元组,并将其存入缓存区中,直至t=Tmax时,完成一个回合的数据存储;其中,Tmax表示每个回合的总时刻数;

步骤603、重复步骤602,进行下一个回合的数据存储,直至缓存区中经验元组的数量为B,得到第一轮训练数据;其中,B大于Tmax

步骤七、MAPPO算法迭代优化网络模型的参数:

步骤701、输入第一轮训练数据,计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化,得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值;

同时,采用计算机利用MAPPO算法对中无人机Critic网络ω1的参数和用户Critic网络ω2的参数进行梯度下降优化,得到无人机Critic网络的参数ω1的第一轮优化值和用户Critic网络的参数ω2的第一轮优化值;

步骤702、按照步骤三至步骤603所述的方法,得到下一轮训练数据;

步骤703、输入下一轮训练数据,按照步骤701所述的方法,以上一轮优化值作为参数初始值,进行下一轮的优化更新,得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω1的下一轮优化值和用户Critic网络的参数ω2的下一轮优化值;

步骤704、按照步骤三至步骤603所述的方法,完成设定的最大回合Th的数据存储,得到第P轮训练数据;其中,P为正整数;

步骤705、输入第P轮训练数据,并按照步骤701所述的方法,以上一轮优化值作为参数初始值,得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮最后轮优化值;

步骤八、多无人机和多用户协同通信优化预测:

步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮优化值,得到优化后的网络模型;

步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态,并输入优化后的网络模型,得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军火箭军工程大学,未经中国人民解放军火箭军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110806485.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top