[发明专利]二维间歇过程非策略无模型输出反馈最优跟踪控制方法在审
| 申请号: | 202210962598.7 | 申请日: | 2022-08-11 |
| 公开(公告)号: | CN115327904A | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 施惠元;马嘉悦;郑尚磊;苏成利;姜雪莹;李平;解俊朋;李娟 | 申请(专利权)人: | 辽宁石油化工大学 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 沈阳之华益专利事务所有限公司 21218 | 代理人: | 黄英华 |
| 地址: | 113000 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 二维 间歇 过程 策略 模型 输出 反馈 最优 跟踪 控制 方法 | ||
1.二维间歇过程非策略无模型输出反馈最优跟踪控制方法,具体步骤如下:
步骤一:描述二维间歇过程控制问题;
首先,间歇过程的状态空间可表示为:
其中,x(k,p)表示当前时间当前批次的系统状态,u(k,p)表示系统在当前时间当前批次下的控制输入,y(k,p)表示当前时间当前批次的系统输出,k表示时间方向,p表示批次;
为了提高系统的稳定性,用系统状态沿批次方向的增量和输出误差的组合来代表扩展后的状态,根据等式(1),具体可以表示为:
其中,定义Δpθ(k,p)=θ(k,p)-θ(k,p-1)为变量θ沿批次方向的差值;
为了提高系统的跟踪性能以及自由度,将输出误差扩展到状态中,扩展后的状态方程表示为:
其中,为扩展后的新的状态,e(k,p)=yr-y(k,p)为期望输出yr与实际输出y(k,p)的误差,r(k,p)=Δpu(k,p)为控制输入的增量,Y(k,p)=Δpy(k,p),I表示适当维数的单位矩阵;
给出一个具有代价函数形式的极值问题来处理最优跟踪控制问题
以及控制策略
r(k,p)=K1X(k,p)+K2X(k+1,p-1) (5)
f(X(i,j),X(i+1,j-1),r(i,j))函数采用如下的二次型:
其中,和R>0是用户定义的加权矩阵;
步骤二:设计二维间歇过程的最优控制器;
由等式(4)给出的二次函数可定义如下的成本函数
在控制策略r(k,p)可控的条件下,可以给出如下的二维成本函数:
可定义Q函数:
进一步等式(9)可以化为:
其中,
在最优的增益和下,存在最优的值函数
以及最优的Q函数Q*(X(k,p),X(k+1,p-1),r(k,p)),比较二者关系可以得到
根据Q函数可得到二维贝尔曼方程:
依据最优性原理,令得到最优控制策略:
其中,
步骤三:引入易于测量的输入输出序列信息;
当系统可观时,系统状态可以用容易测量的输入输出信息进行表示:
X(k,p)=Mξ(k,p) (16)
其中,M=[Mr Mp My],
且有
步骤四:设计输出反馈最优控制器;
基于等式(16)引入的序列信息,构建新的控制策略:
其中,
在引入易于测量的输入输出信息后,等式(14)可以表示为:
其中,
基于非策略强化学习算法,引入目标策略rj(k,p)用以学习由行为策略r(k,p)产生的数据,得到:
其中,
在引入新的策略后,二维贝尔曼方程如下所示:
依据克罗内克积、最小二乘原理可得到:
θj(k,p)Lj+1=ρj(k,p) (21)
其中,
经计算可得控制器增益为:
步骤五:分析控制算法的无偏性与收敛性;
在行为策略r(k,p)中引入探测噪声n(k,p),无论探测噪声是否为0,等式(20)解出的不变,因此,所提算法无偏;
在给定初始迭代条件且迭代次数近似无穷大时,黎卡提方程的解能收敛到最优解同时由于P矩阵与H矩阵相似的收敛趋势,也可以收敛到最优解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁石油化工大学,未经辽宁石油化工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210962598.7/1.html,转载请声明来源钻瓜专利网。





