[发明专利]丢包环境下批次过程无模型离轨策略最优跟踪控制方法有效
| 申请号: | 202111442738.X | 申请日: | 2021-11-30 |
| 公开(公告)号: | CN114200834B | 公开(公告)日: | 2023-06-30 |
| 发明(设计)人: | 施惠元;文馨;姜雪莹;吕梦迪;苏成利;李平 | 申请(专利权)人: | 辽宁石油化工大学 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 沈阳天赢专利代理有限公司 21251 | 代理人: | 李荣新 |
| 地址: | 113001 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 环境 批次 过程 模型 策略 最优 跟踪 控制 方法 | ||
1.丢包环境下批次过程无模型离轨策略最优跟踪控制方法,其特征在于:具体步骤如下:
步骤一:描述丢包环境下二维批次过程控制问题;
通常情况下,二维批次过程的输入输出关系可用如下的状态空间方程描述:
其中,x表示系统状态,u表示系统控制输入,y表示系统输出,t表示时间方向,k表示批次;
为了减少系统的稳态误差并提高控制器的调节能力,使用系统的增量状态和输出误差作为新的系统状态来建立扩展的状态空间方程,根据式(1),可以将两个相邻批次间的增量系统状态空间方程表示为
其中,△kx(t,k)=x(t,k)-x(t,k-1)表示状态变量沿着批次方向的差值,r(t,k)=u(t,k)-u(t,k-1)表示控制输入沿着批次方向的差值,同样地,△ky(t,k)表示输出变量沿着批次方向的差值;
在无线网络环境下,考虑到数据包丢失对过程控制变量传输的影响,在经过无线网络传输后,包含丢包情况的系统状态可描述为:
xf(t,k)=δ(t,k)x(t,k)+(1-δ(t,k))xf(t,k-1) (3)
其中,xf(t,k)表示经过无线网络传输后得到的过程控制状态,δ(t,k)表示为传输是否成功的标志,可取值为0或1,δ(t,k)=0时,表示传输过程中出现了数据包的丢失,δ(t,k)=1时,表示传输成功,传输过程未发生数据包的丢失;
在控制器设计过程中,设计目标为利用网络传输反馈得到的数据xf(t,k)设计控制器,使得过程控制的输出信号y(t,k)在丢包情况下仍能跟踪其设定值yr,因此,将实际输出和设定输出的差值定义为e(t,k)=yr-y(t,k),再令则可根据状态空间方程(1)和增量状态空间方程(2)得到如下扩展的系统方程:
其中Y(t,k)=△ky(t,k),I表示适当维数的单位矩阵;
给出如下批次过程的线性二次型最优跟踪问题的性能指标
以及控制策略
其中,Q1和Q2是半正定矩阵,表示状态权重,R为正定矩阵,表示控制变量权重;
步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;
xf(t,k)是经过网络传输后,控制器接收到的系统状态,其表达式如下:
(7)
其中是数据传输过程中的连续丢包数,且满足的取值范围,是连续丢包数的最大值,则可从式(1)中获得以下公式,来预测当前时间的状态量;
在TCP或UDP协议的情况下,可以认为丢包的数量是已知的;
当时,
当时,
按照这种方式类推,当时,
再结合式(8),可构建出如下所示的史密斯预估器:
X(t,k)=Mη(t,k) (12)
其中
步骤三:设计基于模型的最优过程控制器;
由性能指标(5)可定义如下所示的值函数
以及如下所示的Q函数
再利用动态规划原理,可以得到如下关系:
V*(X(t,k),X(t+1,k-1))=Q*(X(t,k),X(t+1,k-1),r*(t,k)) (15)
如果策略r(t,k)是可允许控制的,那么批次过程的二维值函数和二维Q函数都可以表示为如下所示的二次型形式:
Q*(X(t,k),X(t+1,k-1),r(t,k))=s(t,k)TH*s(t,k) (17)
其中P*和H*均为正定矩阵,s(t,k)=[XT(t,k),XT(t+1,k-1),rT(t,k)]T,H*可表示为:
其中,为了简化表达,H*矩阵下角标中的X1用于表示状态X(t,k),X2用于表示状态X(t+1,k-1),r用于表示r(t,k),根据(16)式和(17)式的关系,可以得到
其中
基于动态规划,可得到如下所示的基于二维Q函数的二维贝尔曼方程:
根据最优控制原理,令得到最优控制输入:
其中
步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;
根据引入的史密斯预估器(12),可构建出基于史密斯补偿的控制策略
其中
同样地,在引入史密斯预估器后,等式(20)中的二维贝尔曼方程阐述如下:
其中
M*=MT(MMT)-1;
为了更好地解决数据挖掘与数据利用的矛盾,在系统中引入辅助变量得到:
其中r(t,k)为行为策略,用于产生算法学习所需的数据,rj(t,k)是所提算法需要学习的目标控制策略,沿着新系统的轨迹,二维贝尔曼方程表示为如下形式:
其中
根据克罗内克积的表达形式,进一步将上式改写为如下形式:
其中
通过对上述各项的计算,得到控制器增益:
得到上述控制器增益的迭代表达式后,首先利用行为策略作用于系统产生时间方向和批次方向的二维数据,将数据存储在Φj(t,k)和中,接着给定能使系统稳定的初始控制器增益,再通过(26)式和(27)式迭代求解和一直到满足条件,即和差值的绝对值以及和差值的绝对值小于一个极小的正整数,则停止求解;
步骤五:进行控制算法的无偏性与收敛性分析;
丢包环境下,将探测噪声n(t,k)引入到行为策略r(t,k)中,无论引入的探测噪声是否为零,贝尔曼方程(25)求解出的都不会变化,所以,探测噪声的加入并不会对所提出的算法的学习结果造成影响;
算法的收敛性在于当给定了初始迭代条件且迭代次数接近无穷大时,满足黎卡提方程的解矩阵在迭代过程中逐渐收敛到最优解,由于矩阵和矩阵收敛趋势类似,因此所提出的无模型离轨策略最优跟踪控制方法的解矩阵也逐渐收敛到最优矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁石油化工大学,未经辽宁石油化工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111442738.X/1.html,转载请声明来源钻瓜专利网。





