[发明专利]一种数据驱动的舰载火箭炮发射装置最优跟踪控制方法有效
申请号: | 202111237921.6 | 申请日: | 2021-10-25 |
公开(公告)号: | CN114114905B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 马倩;金鹏;徐胜元 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 薛云燕 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 驱动 舰载 火箭炮 发射 装置 最优 跟踪 控制 方法 | ||
1.一种数据驱动的舰载火箭炮发射装置最优跟踪控制方法,其特征在于,将基于神经网络的非线性内模和自适应动态规划相结合,得到近似最优的前馈-反馈复合控制器构建方法,具体包括以下步骤:
步骤1、建立舰载火箭炮发射装置的数学模型,用于后续系统数据收集;
步骤2、根据输出调节理论,利用调节方程的解,将最优输出调节问题转换为最优镇定问题;
步骤3、根据输出调节理论及神经网络逼近理论,设计非线性神经网络内模,获得输出调节方程的解,并设计前馈控制器;
步骤4、根据步骤1建立的模型,利用加有探索噪声的容许控制器激励系统,收集被控系统的输入数据和状态数据;
步骤5、引入自适应动态规划算法,通过算法迭代获得更优的价值函数权重系数和策略函数权重系数;
步骤6、算法迭代,重复步骤5,直至满足算法结束条件,得到近似最优权重系数;
步骤7、利用步骤6得到的近似最优权重系数,获得近似最优反馈控制策略,并与步骤3中得到的前馈控制器进行整合,得到最终的近似最优的前馈-反馈复合控制器;步骤1所述的建立舰载火箭炮发射装置的数学模型,用于后续系统数据收集,具体如下:
其中,θf为发射箱中心线与舰体甲板基准平面的夹角;ωf为发射箱中心线与舰体甲板基准平面夹角的角速度,为ωf的导数;σf为中间变量,为σf的导数;为系统扰动输入,θc代表舰体甲板基准平面与水平面的夹角,代表舰体甲板基准平面与水平面的角加速度,α为控制器输入,r为被跟踪信号,y为系统输出,e为跟踪误差,J为系统负载转动惯量与电机折算至负载端等效转动惯量之和,L为电机绕组等效电感,I为传动链减速比,R为电机绕组等效电阻,Kt为电机电流转矩系数,Ke为电机反电动势系数,Fb为电机粘滞摩擦系数;
舰体的上下摇摆运动θc由如下外系统产生:
其中,θ为外系统的状态量,为θ的导数;S(θ)为非线性函数,Γ为输出系数矩阵;θ(0)、θ0为外系统的状态量θ的初始值;
假设被跟踪信号r为常量,令r=0°,即被打击目标与舰艇处于同一水平面上,控制目标表述为:在标准假设条件下设计控制器,在控制器作用下调整舰载火箭炮发射装置的发射角,以最小代价将发射箱中心线与水平面夹角调整为y=θf+θc=0°,即表示成功打击到目标;
步骤2所述的根据输出调节理论,利用调节方程的解,将最优输出调节问题转换为最优镇定问题,具体如下:
根据输出调节理论,输出调节问题能被解决当且仅当如下输出调节方程有解:
其中,为系统稳定状态量,为的导数,α1为系统稳态控制输入,表示对变量θ的求偏导,表示对变量θ的求偏导;
定义状态变换和输入变换u=α-α1,则将最优输出调节问题转换为最优镇定问题:
其中,x1、x2、x3为实际状态量θf、ωf、σf与稳态状态量之间的误差;u为实际控制输入α与稳态控制输入α1之间的误差;
将系统式(4)写成紧凑形式,有
其中,各变量的含义如下:
后文描述中用f、g代表f(x,θ)、g(x,θ);
经过上述转换,最优输出调节问题被转换为最优镇定问题,该问题的具体描述如下:
针对由公式(1)表示的系统和由公式(2)表示的外系统,设计如下形式的复合控制器:
α*=u*+α(θ) (6)
其中,α*为近似最优的复合控制器,它由最优反馈控制器u*和前馈控制器α(θ)构成;
考虑如下性能指标函数J(x0,u),表达式如下:
其中,x0为状态x的初始值,r(x,u)=Q(x)+uTRu,Q(x)为正定函数,R为正定对称矩阵,uT代表控制输入u的转置;
上述控制器使得系统满足以下条件:①闭环系统所有状态有界;②跟踪误差一致最终有界;③代价函数(7)取最小值;
步骤3所述的根据输出调节理论及神经网络逼近理论,设计非线性神经网络内模,获得输出调节方程的解,并设计前馈控制器,具体如下:
设计非线性神经网络内模之前,给出必要的假设条件1,表述如下:
假设1:形如公式(2)的外系统能浸入到如下系统:
其中,为稳态发生器的状态量,为其导数,G,J,F,H为常系数矩阵,且(H,F)为可观矩阵对;χ(·)为非线性函数,满足如下关系式:
(s1-s2)T(χ(s1)-χ(s2))≥0 (9)
其中,s1、s2为函数χ(·)的自变量,χ(s1)、χ(s2)为函数χ(·)的因变量;
设计如下非线性内模
其中,η为内模状态,为内模状态量的导数,K为增益矩阵,为待设计函数;
为将问题转换为关于原点的镇定问题,定义如下坐标变换
其中,为内模状态与稳定状态之间的误差;
为保证误差系统渐近问题,取
其中,为函数f3(x,θ)的估计值,由神经网络逼近得到,F0=F-KH为系数矩阵;
将(12)式代入(10)式,得非线性内模方程为
根据式(8)和式(11),得前馈控制项为:
步骤4所述的根据步骤1建立的模型,利用加有探索噪声的容许控制器激励系统,收集被控系统的输入数据和状态数据,具体如下:
为摆脱对于精确数学模型的依赖,设计基于数据驱动的控制方法,为获得系统输入-状态数据,在容许控制中加入探索噪声,即
u=u1+ζ (15)
其中,u1为初始的容许控制器,在该控制器作用下,系统能保持稳定,即系统的所有状态量都是有界的;ζ为探索噪声,由多个正弦或者余弦信号叠加而成;
步骤5所述的引入自适应动态规划算法,通过算法迭代获得更优的价值函数权重系数和策略函数权重系数,具体如下:
定义系统式(5)的价值函数V(x,θ),形式如下:
后文中用V代表V(x,θ),V*为V的最优值,u*为u的最优值;
根据最优控制理论,最优控制器的求解转化为哈密尔顿-雅克比-贝尔曼方程的求解问题,方程的具体表达式如下:
其中,代表V对变量x求偏导,代表V对变量θ求偏导;
又因为最优控制量u*和最优值函数V*满足如下条件:
其中,代表V*对变量x求偏导,代表V对变量θ求偏导;
且最优控制量u*同时满足如下方程
通过求解式(19),得
将式(20)代入式(18),得
由于难以直接通过求解(21)式,获得最优的价值函数V*以及最优控制策略u*,因此研究人员提出了策略迭代算法求解最优控制策略,策略迭代算法包括如下两步:
(1)策略评估
(2)策略改进
其中,Vi和ui分别为第i次的价值函数和控制策略函数,和分别代表和的转置;通过反复迭代式(22)和式(23),当i取无限大时,得到最优的控制器u*;
上述策略迭代算法虽然可避免哈密尔顿-雅克比-贝尔曼方程,但该求解过程仍然依赖系统信息f和g;为克服难以得到系统精确系统模型的问题,因此引入自适应动态规划算法解决这一问题,将式(5)重写为:
其中,
当i≥1,对第i次的价值函数进行求导,并将式(22)和式(23)代入,有
上式进一步表示为:
其中,Vi(x(tk+1),θ(tk+1))、Vi(x(tk),θ(tk))为第i次迭代tk+1和tk时刻的价值函数Vi的值;
根据神经网络逼近原理,价值函数Vi(x,θ)和控制策略ui+1由如下神经网络近似得到
其中,分别为价值函数Vi(x,θ)和策略函数ui+1的神经网络的基函数,N1和N2代表神经网络个数,为第i次迭代时的价值函数Vi(x,θ)的估计值,为第i+1次迭代时的策略函数ui+1的估计值,分别为和的权重系数;
将式(27)代入式(26),得如下迭代公式
其中,为的转置,Ei,k为逼近误差,最优的权重系数由最小二乘法梯度下降得到。
2.根据权利要求1所述的数据驱动的舰载火箭炮发射装置最优跟踪控制方法,其特征在于,步骤6中所述的算法结束条件为直至相邻两次的价值函数权重系数的二范数之差小于给定误差精度或者达到算法预设的最大迭代次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111237921.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置