[发明专利]一种基于值迭代的Baxter机械臂智能优化控制方法有效
申请号: | 202110464400.8 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113290554B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 王波;朱俊威;董子源;张恒;夏振浩;周巧倩;张钧涵 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 值迭代 baxter 机械 智能 优化 控制 方法 | ||
1.一种基于值迭代的Baxter机械臂智能优化控制方法,其特征在于,所述方法考虑Baxter机械臂系统动力学方程如下:
其中q,分别表示机械臂位置,角速度,角加速度向量,Mj(q)表示机械臂惯性矩阵,表示机械臂科氏力矩向量,Gj(q)表示机械臂重力矩向量,τ表示机械臂控制力矩向量,τd表示外部环境的未知扰动力矩向量;
系统状态向量由下式表示:
Baxter机械臂的状态空间方程给出如下:
其中,u=τ为系统力矩输入,为状态向量,y为输出,矩阵Ac,Bc,hc定义如下:
其中,On为(n×n)的零矩阵,In为(n×n)的单位矩阵;
其中,0n为(n×1)的零矩阵,n(x1,x2)收集科式力矩、重力矩相关信息;
对于Q-learning值迭代最优控制问题:
有限域最优控制问题为:
选取Q=1,R=1,(A,B)能控,控制器的求解由贝尔曼最优原理确认,由u=-Kx,其中K=R-1BTH,且H满足代数黎卡提方程:
ATH+HA-HBR-1BTH+Q=0 (8);
所述智能优化控制方法包括以下步骤:
步骤1)对系统进行初始化处理,步骤如下:
1.1)选取基函数:对连续时间LQR,其值函数在状态下是二次的,因此,选择(9)式中的actor神经网络的基函数Rn→RL作为状态分量的二次多项式向量,该向量状态个数为n,则该基函数含有n(n+1)/2个分量,同时,权重向量W由矩阵H中的元素组成;
1.2)初始化系统:选择初始状态x0,计算基函数初始值,确定初始策略K0;
步骤2)对系统进行采样,并进行最小二乘法的计算,求得最优值函数,即策略评估过程;为了得到在策略Ki下每一步的Q函数,使用参数矩阵Hi计算,记z=[xT uT]T,上述公式变为:
其中为Kronecker内积二次多项式基向量,元素为{zi(t)zj(t)}i=1,n;j=i,n;
在每个迭代步骤中,在使用相同的控制策略Ki收集足够数量的位置和角速度轨迹点后,用最小二乘法求解Q函数参数从而得到Hi+1,在最小平方意义下,通过最小化目标函数之间的误差来找到参数向量H的最小值,在状态空间中N个点Zi求值,得到最小二乘解为:
其中,
测量时间t和t+T离散时刻的状态,以及在采样时间间隔内观察到的奖励:
Hi+1=f(hi+1) (15)
步骤3)根据得到的最优值函数,通过贪心算法更新最优参数:
当最小二乘法收敛时,策略不再更新,得到最优策略,连续时间ADP算法由(14)和(6)之间的迭代组成,然而,使用(15)更新控制策略不需要包含动力学知识的系统矩阵,这使得算法在无模型的情况下实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110464400.8/1.html,转载请声明来源钻瓜专利网。