[发明专利]一种基于自适应动态规划的多智能体跟随控制方法和系统在审
| 申请号: | 202211501456.7 | 申请日: | 2022-11-28 |
| 公开(公告)号: | CN115755615A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 杨根;张弓;袁海;张金越;王昕彤;吴月玉 | 申请(专利权)人: | 广州先进技术研究所 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 杨艳 |
| 地址: | 511458 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自适应 动态 规划 智能 跟随 控制 方法 系统 | ||
1.一种基于自适应动态规划的多智能体跟随控制方法,所述多智能体包括一个领航者和至少一个跟随者,其特征在于,所述跟随控制方法包括:
步骤S1、基于领航者的状态量确定跟随者的状态方程、控制量,基于跟随者的状态方程确定跟随者与领航者间的跟随状态误差,以及跟随者的控制量误差;
步骤S2、以跟随者的跟随状态误差和消耗能量最小为目标确定效用函数,基于所述效用函数确定使得跟随者能量最小化的代价函数,基于所述代价函数确定控制误差函数;
步骤S3、基于迭代方法求解所述控制误差函数,基于预设的神经网络拟合所述控制误差函数和所述代价函数,以在迭代过程中逐步拟合出最优的控制误差函数,基于最优的控制误差函数确定最优控制策略。
2.根据权利要求1所述的基于自适应动态规划的多智能体跟随控制方法,其特征在于,所述步骤S1具体包括:
确定领航者的当前时刻状态量ξ、下一时刻状态量ξ′;跟随者的当前时刻状态量λ,下一时刻状态量λ′;确定跟随者的状态方程:
λ′=f(λ)+g(λ)v(λ)
上式中,f(·)为状态耦合函数,g(·)为输入耦合函数,v(·)为跟随者的控制策略函数,v(λ)为跟随者当前时刻状态量下的控制量;
确定跟随者的期望控制量ve为:
ve=g-1(ξ)(ξ′-f(ξ))
上式中,ve为跟随者的期望控制量,g-1(ξ)为输入耦合函数值的转置;
跟随者与领航者之间的当前时刻的跟随状态误差x为:
x=λ-ξ
跟随者在当前时刻状态量下的控制量v(λ)与期望控制量ve之间的控制量误差u(x)为:
u(x)=v(λ)-ve
=v(x+ξ)-ve
跟随者在下一时刻的跟随状态误差x′为:
x′=λ′-ξ′
=f(λ)+g(λ)v-ξ′
=f(x+ξ)+g(x+ξ)(u(x)+ve)-ξ′
跟随者下一时刻的跟随状态误差x′为当前时刻的跟随状态误差x和控制量误差u(x)的函数,记为:
x′=F(x,u(x))
上式中,F(·)表示x和u(x)到x′的映射。
3.根据权利要求2所述的基于自适应动态规划的多智能体跟随控制方法,其特征在于,所述步骤S2具体包括:
确定跟随状态误差的效用函数为:
U(x,u(x))=xTQx+u(x)TRu(x)
上式中,U(x,u(x))表示跟随状态误差为x,控制量误差量为u(x)时的效用函数,Q、R均为正定矩阵;
基于所述效用函数确定跟随者的代价函数:
V(x,u(x))=∑U(x,u(x))=(xTQx+u(x)TRu(x))+(x′TQx′+u′T(x′)Ru′(x′))+…
上式中,V(·)为代价函数,U(·)为效用函数;x′为跟随者下一时刻跟随状态误差,u′(x′)为跟随者下一时刻的控制量误差;
基于贝尔曼最优原理:
上式中,V*(x)为在当前时刻的跟随状态误差x下的最优代价函数,V*(x)为在下一时刻的跟随状态误差x′下的最优代价函数,min{·}表示求花括号中的函数的最小值;
最优的控制误差函数u*(x)为:
式中,u*(x)表示在当前时刻的跟随状态误差x时的控制量,表示使花括号中的函数最小时的u(x)的值;R-1表示正定矩阵R的逆矩阵,gT(x)表示g(x)的转置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州先进技术研究所,未经广州先进技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211501456.7/1.html,转载请声明来源钻瓜专利网。





