[发明专利]一种混合经验的多智能体强化学习运动规划方法有效

申请号：	202110558854.1	申请日：	2021-05-21
公开（公告）号：	CN113341958B	公开（公告）日：	2022-02-25
发明（设计）人：	万开方;武鼎威;高晓光	申请（专利权）人：	西北工业大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	西北工业大学专利中心 61204	代理人：	金凤
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种混合经验智能强化学习运动规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种混合经验的多智能体强化学习运动规划方法，其特征在于，包括以下步骤：

步骤1：对多智能体建立复杂环境下运动规划的随机对策模型；

采用随机对策作为环境模型，随机对策又称马尔科夫博弈模型，用五元组N,S,A,P,R进行描述，其中N＝{1,2,...,n}，表示n个智能体的集合，S表示联合状态，A表示联合动作，P为状态转移模型，R表示联合奖励；

步骤1-1：设定智能体以及障碍物的物理模型；

对于智能体i，i＝1,2,…,n，其半径为r_i^a，在绝对坐标系中的位置为智能体i运动的角速度为ω_i，速率为u_i，用速度角ψ_i表示速率与X轴正方向的夹角，n为智能体数量；

智能体i的目标设定为半径为r_i^g的圆形区域，目标位置为目标与智能体i的距离为D(P_i^a,P_i^g)；当D(P_i^a,P_i^g)≤r_i^a+r_i^g时，表明智能体i已到达目标；

设定智能体i的目标速度角为α_i，表示以智能体i中心为原点，以智能体i到其目标的方向为正方向建立极坐标系时的智能体i速度矢量与该极坐标下正方向的夹角值；智能体i具有通信功能，设定智能体i的通信范围是以智能体i为圆心，以d_c为半径的圆形区域；在通信范围内，智能体i能感知到其他智能体和障碍物的位置；

障碍物设定为失去通信功能的故障智能体，对于障碍物j，它的半径为速率和角速度分别为和速度角为位置为与智能体i的距离为为智能体i与障碍物j的碰撞距离，且当时，表明已发生碰撞；

步骤1-2：设定多智能体的联合状态；

多智能体的联合状态为所有智能体的状态的笛卡尔积，表示为S＝s₁×s₂×...×s_n，其中s_i代表着智能体i的状态；对于智能体i，它的状态空间为局部环境的观测信息；

将智能体i作为原点，将其与目标位置连线的方向作为正方向建立极坐标系，智能体i的状态表示为s_i＝(s_Ai,s_Ei)，其中为自身信息，为智能体i与目标的距离，α_i为目标速度角，u_i和ψ_i分别为智能体i的速率和速度角；为环境信息，其中为智能体i与距离它最近邻居j之间的距离，智能体i的邻居为其通信范围内的智能体和障碍物的集合，和分别为最近邻居j的速率、速度角以及半径；

如果智能体i的通讯范围内没有邻居，则

步骤1-3：设定多智能体的联合动作；

多智能体的联合动作为所有智能体的动作的笛卡尔积，表示为A，且A＝a₁×a₂×...×a_n，其中a_i表示无人机i的动作；对于智能体i，它的运动是由自身的角速度和速率所决定；

设定智能体i的动作空间为其中为t时刻智能体i的角速度；

步骤1-4：设定多智能体的状态转移模型；

多智能体的状态转移模型为P:S×A×S→[0,1]，表示所有智能体在当前状态采取联合动作到达下一状态的概率值；

智能体的状态转移通过运动实现，设定智能体和障碍物的运动空间为二维空间，则对于智能体i，它的运动模型表示为：

其中，和分别为智能体i的速率沿X轴和Y轴的分量，为智能体i的角速度；设定智能体i下一时刻位置为下一时刻速度角为ψ′_i，运动的间隔时间为△t，则智能体i从当前状态转移到下一状态的过程表示如下：

障碍物的状态转移过程与智能体相同；

步骤1-5：设置多智能体的联合奖励；

设定多智能体的联合奖励为R，表示为R＝R₁×R₂×...×R_n，即所有智能体奖励函数的笛卡尔积，其中R_i表示智能体i与环境交互、实现状态转移后获得的奖励值；

智能体i的奖励函数设置如下：

设智能体i到达目标时的奖励函数为其中表示智能体到达目标消耗时间的惩罚值，W_t表示惩罚程度的参数值，T_i为智能体实际到达目标消耗的时间；表示智能体以匀速沿直线运动至目标位置时消耗的时间，其中P_i^a0为智能体i的初始位置；

智能体i发生碰撞时的奖励函数为R_{i_collision}＝-5；

当智能体i没有到达目标或没有发生碰撞时，设置4种非稀疏奖励函数，具体表达式如下：

其中为初始时刻智能体i到目标的距离值，表示下一时刻智能体i到目标的距离值；

则智能体i正常运动时的奖励函数表示为R_i＝η₁N(R₁)+η₂N(R₂)+η₃N(R₃)+η₄N(R₄)，其中N(R)表示对奖励函数的归一化处理，η₁,η₂,η₃,η₄表示4种奖励函数的贡献率，且η₁+η₂+η₃+η₄＝1；

步骤2：采用ME-MADDPG算法对多智能体运动规划进行训练；

步骤2-1：构建运动规划网络结构；

运动规划网络结构采用Actor-Critic网络结构，Actor网络和-Critic网络为两个独立的神经网络，都由输入层、隐藏层和输出层构成；

对于n个智能体，则有n个Actor网络和Critic网络以及n个目标Actor网络和目标Critic网络，设智能体运动规划的确定性策略集合为μ＝{μ₁,…,μ_n}；

对于智能体i，它的Actor网络输入为状态向量s_i，输出向量为动作向量它的Critic网络输入为所有智能体的状态向量s＝(s₁,...,s_n)和所有智能体根据各自的策略网络μ_i得到的动作a₁,...,a_n；输出为表示智能体i的动作值函数，即Q值，其中和分别为Actor网络参数和Critic网络参数的集合；θ′^μ和θ′^Q分别为目标Actor网络参数和目标Critic网络参数的集合，而智能体i的目标Actor网络参数和目标Critic网络参数更新方式为将Actor网络μ_i和Critic网络的参数复制到各自对应的目标网络中，即之后设定Actor网络和Critic网络的超参数，包括网络层数、节点数、学习率、激活函数以及训练优化器；

步骤2-2：设置训练参数的值，包括经验池容量M、批量采样数量N、目标网络更新频率F、最大训练回合数E以及每个回合智能体的最长运动时间T，并初始化训练回合数为e＝0；

步骤2-3：初始化智能体和障碍物的初始位置、目标位置、速率、角速度以及速度角，初始化迭代次数k＝0和运动时间t＝0，生成一个随机数p₀且p₀∈[0,1]；初始化每个智能体的联合状态，即对于智能体i，设置初始联合状态为s_i＝(0,0,0,0,0,0,0,0,0)；

步骤2-4：设置采样概率p的具体值；

首先设置p的初始值，p∈[0,1]；之后在每个训练回合进行条件判定，若进入训练环节且p0，则设置p的值为clip(p-1/M,0,1)，即clip(p-1/M,0,1)→p；否则p不发生变化；

clip(p-1/M,0,1)→p表示：当p-1/M≥1时p＝1，当p-1/M≤0时p＝0，当0p-1/M1时p-1/M→p；

步骤2-5：判断决策动作的方式；

若p₀≤p，则转到步骤2-6，根据人工势场法决策每个智能体的动作并获得联合状态，将其存入专家经验池D_A；否则，转到步骤2-7，根据每个智能体的Actor网络决策动作并获得联合状态，将其存入探索经验池D_E；

步骤2-6：根据人工势场法决策动作；

对于智能体i，首先求出智能体i与目标之间的引力场得到该引力场对智能体i所产生的引力即为引力势能的负梯度大小；然后求出智能体i与它的邻居j之间的斥力场得到斥力场所生成的斥力即为斥力势能的负梯度；之后求出智能体i受到的合力大小，表示为：

合力方向为求出角速度为最后确定智能体i的角速度，表示如下：

其中，ω_max和ω_min分别表示智能体在其机动性能限制下的最大角速度和最小角速度；

则智能体i获得的动作为a_i＝(ω_i)；对于智能体i，在当前状态s_i根据动作a_i进行状态转移，进入下一状态s′_i并获得奖励R_i，得到联合状态s_i,a_i,s′_i,R_i，将其存入专家经验池D_A；

步骤2-7：根据Actor网络决策动作；

对于智能体i，通过其Actor网络μ_i，根据状态信息s_i选择动作a_i，即其中为确定性策略函数，N_i为Ornstein-Uhlenbeck噪声；

智能体i在当前状态s_i根据动作a_i进行状态转移，进入下一状态s′_i并获得奖励R_i，得到联合状态s_i,a_i,s′_i,R_i，将其存入探索经验池D_E；

步骤2-8：更新所有智能体的状态信息；

对于智能体i，将当前状态s_i更新为s′_i，即s′_i→s_i，并设置运动时间更新，即t+△t→t；

步骤2-9：判断多智能体是否进入训练阶段；

根据存入经验池D_A和D_E的经验元组数量判断是否进入强化学习训练运动规划策略的阶段，若经验元组数量未超过经验池容量M，则转到步骤2-5，继续产生新的经验；否则，转到步骤2-10，进入强化学习训练阶段；

步骤2-10：根据动态采样策略采集样本用于训练；

动态采样策略为：设置从专家经验池D_A采集的样本数量为nA，且nA＝ceil(N×p)，即nA为N×p向上取整的数；设置从探索经验池D_E采集的样本数量为nE，且nE＝N-nA；

分别从经验池D_A和D_E中随机抽取nA和nE个样本，将它们随机组合为(s^l,a^l,s′^l,R^l)_l＝1,N，即为最终用于训练的样本集；

步骤2-11：训练更新多智能体的Critic网络参数θ^Q；

对于智能体i，其价值网络参数θ_i^Q通过最小化代价函数L(θ_i^Q)更新，表示如下：

其中a_i和a_i′分别为智能体i当前时刻和下一时刻的动作值，s和s′分别为多智能体当前时刻和下一时刻的联合状态，R_i为智能体i的立即奖励，和分别为智能体i的动作值函数和目标动作值函数，γ为折扣因子；

步骤2-12：训练更新多智能体的Actor网络参数θ^μ；

对于智能体i的策略网络参数通过梯度下降的方式更新，表示如下：

其中μ_i(a_i|s_i)表示Actor网络在状态s_i时根据动作策略函数μ_i得到的动作，表示状态s_i下采取动作a_i＝μ_i(s_i)时的动作值函数，表示在Actor网络参数下的策略梯度，和分别表示Actor网络策略函数梯度和Critic网络动作值函数梯度；

步骤2-13：判断Actor目标网络和Critic目标网络是否更新；

设置迭代次数k+1→k，并判断是否达到Actor目标网络或Critic目标网络更新的条件，即更新后的迭代次数k是否能整除Actor目标网络或Critic目标网络更新频率F，若条件符合，则转到步骤2-14，更新Actor目标网络和Critic目标网络；否则，转到步骤2-15；

步骤2-14：更新目标网络参数；

对Actor目标网络和Critic目标网络的参数进行软更新，表达式为：

其中τ为软更新比例系数；

步骤2-15：判断训练是否结束；

判断运动时间t是否大于最长运动时间T，若不满足t≥T，则转到步骤2-5，继续实现多智能体的状态转移；若满足t≥T，则设置训练回合数e+1→e实现训练回合数的更新，之后对训练回合数进行判断，如果不满足e≥E，则转到步骤2-3，开始下一个回合的训练；如果e≥E，则表明训练结束，保存训练完成的运动规划网络参数；

步骤3：采用步骤2训练完成的运动规划网络对多智能体进行运动规划。

2.根据权利要求1所述的一种混合经验的多智能体强化学习运动规划方法，其特征在于，所述采样概率p＝0.4，经验池容量M＝40000、批量采样数量N＝128。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110558854.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种带文本固定装置的线式装订机
下一篇：提供网络接入服务的方法、接入点、终端

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种混合经验的多智能体强化学习运动规划方法有效

专利文献下载