[发明专利]一种基于动态博弈的人-无人机群安全交互运动规划方法在审
| 申请号: | 202211742094.0 | 申请日: | 2022-12-30 | 
| 公开(公告)号: | CN115933748A | 公开(公告)日: | 2023-04-07 | 
| 发明(设计)人: | 秦家虎;李曼;马麒超;刘轻尘;张聪 | 申请(专利权)人: | 中国科学技术大学 | 
| 主分类号: | G05D1/10 | 分类号: | G05D1/10 | 
| 代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 | 
| 地址: | 230026 安*** | 国省代码: | 安徽;34 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 动态 博弈 无人 机群 安全 交互 运动 规划 方法 | ||
1.一种基于动态博弈的人-无人机群安全交互运动规划方法,其特征在于,是按如下步骤进行:
步骤A:创建无人机集群模型;
步骤A.1:创建无人机动力学模型;
令无人机集群是由N+1个无人机组成的系统,且每个无人机在空间中的位置、速度、加速度均满足二阶动力学方程;利用式(1)构建t时刻的第i个无人机动力学模型:
式(1)中,xi(t)表示由第i个无人机t时刻的位置和速度所组成的增广状态,表示xi(t)的一阶导数,为偏移动力学矩阵,03为三维零矩阵,I3为三维单位阵,为输入矩阵,ui(t)为第i个无人机在t时刻的加速度;i=0,1,…,N;
步骤A.2:构建无人机群的分层结构;
令无人机集群中的第0个无人机为领导者,并与操作者直接交互;其余第1,…,第N个无人机均为跟随者,并根据观察到的领导者行为自主采取响应;所述领导者无人机和跟随者无人机之间为分层关系,其中,领导者处于上层,跟随者处于下层;
步骤B:设定期望的编队队形、安全集以及无人机间的通信关系;
步骤B.1:设定期望的编队队形;
用第k个跟随者无人机相对于领导者无人机状态的偏移量pk表示第k个跟随者无人机期望的编队队形;k=1,…,N;
步骤B.2:利用动捕设备识别运动空间内的行人或动态障碍物的位置,以设定安全集;
基于动捕设备所获得的行人位置,设定二次形式的安全集C={xi(t),i=0,1,…,N|h(xi(t))0},其中,h(xi(t))表示碰撞函数,且xh(t)表示由t时刻的行人位置sh(t)通过补0得到的增广向量,rh为安全半径;
步骤B.3:设定无人机间的通信关系;
将每个无人机视作一个节点,从而通过一个包含节点、边、边的权重的有向图G≡(V,ε,E)建模无人机之间的通信关系,其中,V={0,1,…,N}为有限的非空节点集,i,j∈V,j≠i}为边集,(i,j)为从节点i到节点j的边,E=[ei,j]为描述边权重的(N+1)×(N+1)维邻接矩阵;其中,ei,j表示从节点j到节点i的边(j,i)的权重;
步骤C:设计跟随无人机在目标函数下的最优响应策略,即Nash均衡策略;
步骤C.1:根据邻居无人机状态和期望的编队队形,利用式(2)设计第k个跟随者无人机在t时刻的局部一致误差δk(t):
式(2)中,表示t时刻的第k个跟随者无人机的新状态,且xk(t)表示由第k个跟随者无人机的位置和速度所组成的t时刻的增广状态,表示t时刻的第j个无人机的新状态,且xj(t)表示由第j个无人机的位置和速度所组成的t时刻的增广状态,pj表示第j个无人机的偏移量,当j=0时,令p0表示6×1维的零向量;Nk表示第k个跟随者无人机的邻居节点的集合,且Nk={j∈V:(j,k)∈ε};(j,k)为从节点j到节点k的边;
步骤C.2:利用式(3)设计第k个跟随者无人机的目标函数Vk(δk(t)),从而使得第k个跟随者无人机在目标函数Vk(δk(t))下形成博弈;
式(3)中,Qk∈R6×6和Lk∈R3×3均为第k个跟随者无人机目标函数中两个正定的参数矩阵,R6×6为6×6维实空间,R3×3为3×3维实空间,δk(τ)表示k个跟随无人机在τ时刻的局部一致误差,uk(τ)表示第k个跟随者无人机在τ时刻的加速度,表示uk(τ)的转置,表示δk(τ)的转置;
步骤C.3:根据最优控制理论和动态规划原理,推导出第k个跟随无人机的Nash均衡策略所满足的非线性偏微分方程,如式(4)所示;
式(4)中,δk(t)T表示δk(t)的转置,表示第k个跟随者无人机在t时刻的Nash均衡策略,且BT表示B的转置,表示Lk的逆,表示第k个跟随者无人机在t时刻的最优值函数,且inf表示求极小值算子,表示最优值函数相对于δk(t)的梯度,表示的转置,dk表示第k个跟随者无人机的入度,且
步骤C.4:利用式(5)估计第k个跟随者无人机在t时刻的Nash均衡策略:
式(5)中,Pk∈R6×6为第k个跟随者无人机的正定矩阵,且满足
步骤D:基于安全集C,利用式(6)设计领导无人机在t时刻的安全控制策略
式(6)中,cb表示正常数,Y(xi(t))为控制障碍函数,并由式(7)得到,表示函数Y(xi(t))对xi(t)的梯度;
式(7)中,h(0)表示碰撞函数h(xi(t))在xi(t)恒等于0时的取值,且
步骤E:设计领导者无人机的编队跟踪控制策略;
步骤E.1:根据所有无人机状态演化动力学给出一个增广系统状态;
根据领导者无人机的跟踪误差和跟随者无人机的局部一致误差,定义t时刻的全局误差增广向量δ(t)=[δ0(t)δ1(t)…δN(t)]T,其中,表示领导者无人机在t时刻的跟踪误差,表示领导者无人机在t时刻的新状态,xc(t)表示人类操作者在t时刻给出的期望参考轨迹;
步骤E.2:在跟随者无人机均采取Nash均衡策略的条件下,利用式(8)设计领导者无人机的目标函数V(δ(t)),使得领导者无人机在所述目标函数V(δ(t))下形成Stackelberg博弈;
式(8)中,Q∈R6(N+1)×6(N+1)和L∈R3×3表示领导者无人机目标函数中两个正定的参数矩阵,R6(N+1)×6(N+1)表示6(N+1)×6(N+1)维实空间,u0,f(τ)表示领导者无人机在τ时刻的编队跟踪控制策略,δ(τ)表示τ时刻的全局误差增广向量,δ(τ)T表示δ(τ)的转置;
步骤E.3:根据最优控制理论和动态规划原理,推导领导者无人机在目标函数V(δ(t))下的Stackelberg均衡策略所满足的非线性偏微分方程,如式(9)所示:
式(9)中,表示领导者无人机在τ时刻的最优编队跟踪控制策略,且V*(δ(t))表示领导者无人机在t时刻的最优值函数,且表示最优值函数V*(δ(t))相对于δ(t)的梯度,表示增广输入矩阵,且eN,0表示边(0,N)的权重,L-1表示矩阵L的逆;
步骤E.4:构建由多项式神经网络组成的评价器网络和执行器网络,从而利用式(10)和式(11)分别估计领导者无人机最优值函数V*(δ(t))以及Stackelberg均衡策略
式(10)和式(11)中,W1(t)∈RH为评价器网络在t时刻的权重向量,W2(t)∈RH为执行器网络在t时刻的权重向量,φ(δ(t))∈RH为多项式基函数,H表示网络中隐含层的数量;
利用式(12)和式(13)分别计算评价器网络在t时刻的权重向量W1(t)的更新率以及执行器网络在t时刻的权重向量W2(t)的更新率
式(12)和式(13)中,α10和α20为两个学习率参数,F10为常参数矩阵,F20为常参数,Δφ(t)表示t时刻的多项式基函数与t-T时刻的多项式基函数之差,且Δφ(t)=φ(δ(t))-φ(δ(t-T)),Δφ(t)T表示Δφ(t)的转置,表示多项式基函数φ(δ(t))相对于δ(t)的梯度;
步骤F:对领导者无人机施加控制策略并对每个跟随者无人机施加控制策略从而实现人-无人机群安全交互运动规划。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211742094.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可任意调节角度的销售展示设备
- 下一篇:一种专业领域词库构建方法





