[发明专利]基于MAPPO算法多无人机与用户协同通信优化方法有效

申请号：	202110806485.3	申请日：	2021-07-16
公开（公告）号：	CN113359480B	公开（公告）日：	2022-02-01
发明（设计）人：	赵建伟;吴官翰;贾维敏;张峰干;姜楠;王连锋;谭力宁;金伟;金国栋;沈涛;张聪;何芳	申请（专利权）人：	中国人民解放军火箭军工程大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	西安创知专利事务所 61213	代理人：	卫苏晶
地址：	710025 陕西***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 mappo 算法无人机用户协同通信优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于，该方法包括以下步骤：

步骤一、无人机网络模型和用户网络模型的建立：

步骤101、设定无人机Actor网络的参数为φ，无人机Critic网络的参数为ω₁，用户Actor网络的参数为θ，用户Critic网络的参数为ω₂；

步骤102、设定无人机Actor网络的参数φ的初始值为φ(0)，无人机Critic网络的参数ω₁的初始值为ω₁(0)，用户Actor网络的参数θ的初始值为θ(0)，用户Critic网络的参数ω₂的初始值为ω₂(0)；其中，φ(0)、ω₁(0)、θ(0)和ω₂(0)满足神经网络正交初始化；

步骤二、无人机和用户场景设置：

步骤201、建立二维直角坐标系OXY；其中，二维直角坐标系和地面区域D重合；

步骤202、设定地面区域D中存在N个用户，且用户集合为其中，第t个时刻第n个用户的位置坐标为n和N均为正整数，且1≤n≤N，地面区域D位于OXY的第一象限，且原点O和地面区域D的左下角重合，t为正整数；

步骤203、设定地面区域D的上空存在M架无人机，且无人机集合为且其中，M架无人机相对地面区域D的部署高度均为h；

步骤三、无人机和用户的观测状态的获取：

步骤301、采用计算机设定第t个时刻第n个用户的观测状态为且其中，表示第t个时刻第n个用户的坐标位置，表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置，m和M均为正整数，且1≤m≤M；s_m(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目，j为正整数，且j＝1,…,w；w为正整数，且w＜t；

步骤302、将第t个时刻第n个用户的观测状态输入初始值为θ(0)的用户Actor网络中，用户Actor网络输出第m架无人机的预激活分量χ_m(θ(0))；

步骤303、采用计算机根据得到第t个时刻第n个用户选择第m架无人机动作的离散概率分布其中，exp(·)表示以自然常数e为底的指数函数，表示第t个时刻第n个用户选择无人机的动作；

步骤304、第t个时刻第n个用户根据离散概率分布采样动作并选择相应的无人机接入，并获取第t个时刻第n个用户选择无人机的动作的概率

步骤305、根据用户选择及无人机自身状态，采用计算机设定第t个时刻第m架无人机的观测状态为且其中，表示第t个时刻第m架无人机在OXY下的二维坐标位置，表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置，m′为正整数，m′≠m，且σ_m,n(t)表示接入第m架无人机的第n个用户的状态；

步骤306、采用计算机将第t个时刻第m架无人机的观测状态输入初始值为φ(0)的无人机Actor网络中，无人机Actor网络输出第t个时刻第m架无人机的观测状态下第t个时刻第m架无人机的动作的概率分布其中，服从贝塔分布，即α_φ和β_φ均为贝塔分布的形状参数；表示第t个时刻第m架无人机的动作；

根据采样动作得到第t个时刻第m架无人机给第n个用户的发射功率输出值第t个时刻第m架无人机给第n个用户的带宽输出值和第t个时刻第m架无人机的飞行方位角以及第t个时刻第m架无人机的动作的概率

步骤307、采用计算机设定作为第t个时刻第m架无人机的动作掩码，采用计算机令和其中，表示第t个时刻第m架无人机给第n个用户掩码后功率值，表示第t个时刻第m架无人机给第n个用户掩码后带宽值；

步骤308、采用计算机根据得到第t个时刻第m架无人机给第n个用户分配的发射功率动作分量p_m,n(t)；

采用计算机根据得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量b_m,n(t)；其中，b_m(t)表示第t个时刻第m架无人机可支配的带宽资源，且B_total表示所有UAV共享的总带宽资源，s_m(t)表示接入第m架无人机的用户的总数，b_min表示最小可分带宽；P_total表示每架无人机的发射的总发射功率；

步骤309、采用计算机得到第t个时刻第m架无人机的动作且其中，表示第t个时刻第m架无人机的飞行方位角；

步骤30A、将第t个时刻第n个用户的观测状态为和第t个时刻第m架无人机的观测状态为合并记作第t个时刻第i个智能体的观测状态其中，智能体包括M架无人机和N个用户，i为正整数，且

将第t个时刻第n个用户选择无人机的动作和第t个时刻第m架无人机的动作合并记作第t个时刻第i个智能体的动作

将第t个时刻第n个用户选择无人机的动作的概率和第t个时刻第m架无人机的动作的概率合并记作第i个智能体的动作概率

步骤四、无人机和用户的全局状态的获取：

步骤401、采用计算机根据香农信道容量，并输入步骤309中的p_m,n(t)和b_m,n(t)，得到第t个时刻第m架无人机提供给第n个用户的理论通信速率c_m,n(t)；

步骤402、采用计算机根据得到第t个时刻第n个用户的通信速率

步骤403、采用计算机设定第t个时刻第m架无人机的全局状态为且

步骤404、采用计算机设定第t个时刻第n个用户的全局状态为其中，表示第t个时刻除去第n个用户后其它用户在OXY下的坐标位置，n′为正整数，且n′≠n，且

步骤405、将第t个时刻第m架无人机的全局状态和第t个时刻第n个用户的全局状态合并记作第t个时刻第i个智能体的全局状态其中，i为正整数，且

步骤五、无人机和用户的奖励的获取：

步骤501、采用计算机根据得到第t个时刻N个用户的平均通信速率c_mean(t)；

步骤502、采用计算机根据得到第t个时刻第m架无人机的公平指数f_m(t)；

步骤503、采用计算机根据得到第t个时刻第m架无人机的奖励其中，r_d表示无人机的奖励系数，κ_r为f_m(t)的指数参数，表示第t个时刻第m架无人机的边界惩罚项；

步骤504、采用计算机根据得到第t个时刻第n个用户的奖励其中，r_c表示用户的奖励系数；

步骤505、采用计算机将第t个时刻第n个用户的奖励和第t个时刻第m架无人机的奖励合并记作第t个时刻第i个智能体的奖励

步骤六、储存经验元组：

步骤601、采用计算机将作为第t个时刻第i个智能体的经验元组，并将其存入缓存区中；

步骤602、重复步骤三至步骤601，获取下一个时刻的经验元组，并将其存入缓存区中，直至t＝T_max时，完成一个回合的数据存储；其中，T_max表示每个回合的总时刻数；

步骤603、重复步骤602，进行下一个回合的数据存储，直至缓存区中经验元组的数量为B，得到第一轮训练数据；其中，B大于T_max；

步骤七、MAPPO算法迭代优化网络模型的参数：

步骤701、输入第一轮训练数据，计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化，得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值；

同时，采用计算机利用MAPPO算法对中无人机Critic网络ω₁的参数和用户Critic网络ω₂的参数进行梯度下降优化，得到无人机Critic网络的参数ω₁的第一轮优化值和用户Critic网络的参数ω₂的第一轮优化值；

步骤702、按照步骤三至步骤603所述的方法，得到下一轮训练数据；

步骤703、输入下一轮训练数据，按照步骤701所述的方法，以上一轮优化值作为参数初始值，进行下一轮的优化更新，得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω₁的下一轮优化值和用户Critic网络的参数ω₂的下一轮优化值；

步骤704、按照步骤三至步骤603所述的方法，完成设定的最大回合T_h的数据存储，得到第P轮训练数据；其中，P为正整数；

步骤705、输入第P轮训练数据，并按照步骤701所述的方法，以上一轮优化值作为参数初始值，得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω₁的第P轮优化值和用户Critic网络的参数ω₂的第P轮最后轮优化值；

步骤八、多无人机和多用户协同通信优化预测：

步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω₁的第P轮优化值和用户Critic网络的参数ω₂的第P轮优化值，得到优化后的网络模型；

步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态，并输入优化后的网络模型，得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军火箭军工程大学，未经中国人民解放军火箭军工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110806485.3/1.html，转载请声明来源钻瓜专利网。

上一篇：容器及其侧板
下一篇：一种带有网络热点服务的共享充电宝移动式集成柜

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于MAPPO算法多无人机与用户协同通信优化方法有效

专利文献下载