[发明专利]一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法有效
| 申请号: | 202110303184.9 | 申请日: | 2021-03-22 |
| 公开(公告)号: | CN112947505B | 公开(公告)日: | 2022-11-25 |
| 发明(设计)人: | 王卓;吴淼;孙延超;邓忠超;秦洪德;王海鹏;杨赫 | 申请(专利权)人: | 哈尔滨工程大学 |
| 主分类号: | G05D1/06 | 分类号: | G05D1/06 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
| 地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 算法 未知 干扰 观测器 auv 编队 分布式 控制 方法 | ||
1.一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,包括以下步骤:
针对多AUV编队中的AUV,利用纵向和艏向的复合控制系统进行控制;AUV为自主水下机器人;
所述纵向和艏向的复合控制系统包括:基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器,以及Actor-Critic算法;
纵向干扰观测器与艏向干扰观测器分别如下:
纵向干扰观测器:
其中,eui(t)为纵向干扰观测器的全局观测误差;i表示第i个跟随者,j表示第j个跟随者;是对纵向速度u的估计,是对纵向干扰du的估计,au是控制项系数即τui是推进器纵向推力;sat(eui,α,δ)是饱和函数;fu0是AUV标称模型部分,根据动力学方程u、v、r分别为对应跟随者的纵向速度、横向速度、艏向角速度;βu1、βu2、αu、δu为可调参数;aij表示第i个和第j个跟随者AUV间的通信权重,如果第i和第j个AUV间直接通信,则aij=1,否则aij=0;gi表示第i个跟随者AUV与领航者AUV的通信权重,如果第i个跟随者与领航者直接通信,则gi=1,否则gi=0;
艏向干扰观测器:
其中,eψi(t)为艏向干扰观测器的全局观测误差;是对艏向角ψi的估计,是对艏向干扰dψ的估计;aψ是控制项系数即sat(eψi,αψ1,δψ)、sat(eψi,αψ2,δψ)是饱和函数,fψ0是系统标称模型部分βψ1、βψ2、βψ3、αψ1、αψ2、δψ为可调参数;
所述基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器如下:
其中,ku、kψ1、kψ2为控制增益;τu为推进器纵向推力;τr为转艏力矩,角标i表示AUV编队中第i个跟随者,所有角标i对应的参数为第i个跟随者的参数;带有上标∧的参数表示估计值,带有上标·的表示一阶导数,带有上标··的表示二阶导数;X,Y,Z为作用在AUV上外力的合力,Xu|u|、Yv|v|、Nr|r|为粘性力项水动力系数,Xu、Yv、Nr、为无量纲水动力参数;Iz为AUV绕运动坐标系z轴的转动惯量;m为水下机器人的质量;ui、vi、ri、uri、分别为第i个跟随者的纵向速度、横向速度、艏向角速度、速度全局误差、速度全局误差导数、艏向角二阶导数、艏向角全局误差二阶导数;分别为纵向干扰估计值和艏向干扰估计值;z1i=ηri-ηi、ηi第i个跟随者的状态,ηri为第i个跟随者的全局状态误差,α1i为虚拟控制量;
所述Actor-Critic算法用于确定控制增益ku、kψ1、kψ2,Actor-Critic算法即强化学习算法,由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络四个网络构成;Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络这四个神经网络都使用RBF神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110303184.9/1.html,转载请声明来源钻瓜专利网。





