[发明专利]基于积分强化学习的多消防巡检协作机器人系统有效
申请号: | 202110419574.2 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113134187B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 陈刚;刘智 | 申请(专利权)人: | 重庆大学 |
主分类号: | A62C27/00 | 分类号: | A62C27/00;A62C37/00;A62C37/50 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400044 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 积分 强化 学习 消防 巡检 协作 机器人 系统 | ||
1.基于积分强化学习的多消防巡检协作机器人系统,其特征在于:包括依次连接的硬件层、交互层、感知层和控制层;
所述硬件层采用DSP作为控制器,将里程计和陀螺仪采集到的数据送入DSP内部进行处理,实时计算出机器人在巡检地图中的位置;通过上位机向DSP发送速度指令,DSP将获取到速度信息编码后以控制伺服电机的运转;消防巡检机器人采用的是履带式驱动;当机械臂需要动作时,由上位机中的ros系统通过在moveit!平台对机械臂将要移动到的目标点进行运动轨迹规划,将规划好的运动轨迹离散化后发送到DSP中,DSP获得各个轴的角速度、加速度后控制机械臂的伺服电机运动以到达目标点;
所述感知层包括用于建图的激光雷达、避障的红外线传感器、检测火焰的火焰探测器、温度传感器和realsenseD435i深度摄像头、里程计和陀螺仪;
所述控制层为:
设整个消防巡检区域下共有N个机器人协同巡检,N个机器人从各自的初始位置(xi0,yi0)要到达各自的目的地(xiD,yiD),i∈{1,2,…,N},设第i个消防巡检机器人在t时刻的位置Li(t)=[Lix(t),Liy(t)]T,速度Vi(t)=[Vix(t),Viy(t)]T,控制器输入Ui(t)=[uix(t),uiy(t)]T,控制输入和未知的环境扰动Wi(t)=[Wix(t),Wiy(t)]T,为避免执行器饱和,对输入进行约束,要求|U(t)|≤λ,其中λ为正常数;设两个巡检机器人之间的距离rij(t)=||Li(t)-Lj(t)||,为避免两个巡检机器人发生碰撞需要设置一个安全距离rs,要求在巡检过程中的任意时刻都要满足rij(t)≥rs,设当N个机器人到达巡检目的地后保证rij(t)>>rs,此时i≠j;
则考虑第i个消防巡检机器人的二阶线性动力学模型为:
其中系统矩阵为A,输入矩阵为B,输出矩阵为C,干扰矩阵为D,为机器人在t时刻的状态,为输入,yi(t)为系统唯一输出;
将全局动力学模型写为:
其中为Kronecker乘积,X(t)=[x1(t),x2(t),...,xn(t)]T,Y(t)=[y1(t),y2(t),...,yn(t)]T,IN为N阶单位矩阵,且设L(t)=[L1t,L2t,...,LNt]T,LD=[L1D,L2D,...,LND]T,U0=[U1,U2,...,UN]T分别为N个机器人的在t时刻的位置、目标点位置和控制输入;
为使N个消防巡检机器人在未知的扰动下实现在连续时间、连续状态和控制输入空间中的最小时间和能量的最优控制,并且在整个过程中要避免碰撞,考虑以下成本函数:
其中ζ0,用于表示巡检过程中时间的比重,R为正定矩阵;为求解机器人最小到达时间T未知的路径规划问题,引入双曲正切函数将成本函数改写成无穷积分的形式以便求解,另外为避免执行器饱和,还想要对输入进行约束,将U(t)TRU(t)线性二次型改写成非二次型性能函数φ(U(t)用于逼近最小能量成本并且捕获输入约束,且为避免两个机器人之间发生碰撞引入了人工势场函数,将成本函数近似改写为:
其中ζ为正常数,tanh为双曲正切函数,该函数为单调递增的奇函数且连续可微,成本函数是IRL可解的形式;将ζ改写为ζtanh(L(t)-LD)T(L(t)-LD),当机器人当前位置L(t)距离目标点LD时ζtanh(L(t)-LD)T(L(t)-LD)近似为ζ,到达目标点时ζtanh(L(t)-LD)T(L(t)-LD)=0,将未知时间的T积分转化为与到达时间T无关的无穷积分,以实现对值函数的最优求解;
将U(t)TRU(t)线性二次型改写成非二次型性能函数φ(U(t)用于逼近最小能量成本并且捕获输入约束:
其中输入约束为|U(t)|≤λ,λ和σ均为正常数,R=diag(r1,r2...rm)>0;
为避免任何一对巡检机器人发生碰撞,加入人工势场函数fR(rij(t))使得两个机器人之间发出排斥势场使得二者相互避开,为使得加入势场函数之后的V(x(t),U(t))有界,设计权重矩阵ΛR(t),用于抵消非零尾部;将排斥函数fR(rij(t))定义高斯函数的形式,且该高斯函数总是大于0:
其中s越大则排斥函数的陡度就越大,σ越大排斥范围也越大;为捕捉排斥距离rij(t),求解排斥函数中的s和σ,设有:
fR(rs)=K0;fR(rs+Δ)=K1 (4-7)
其中0<K1<K0<1;Δ为正增量,代入得:
通过权重矩阵ΛR(t)=[Λ12(t),Λ13(t),...,ΛN-1,N(t)]T来使得引入人工势场函数后的值函数是有界的,且权重矩阵取决于与目标点的距离;
ΛR(t)=βtanh(||Li(t)-LiD||2+||Lj(t)-LjD||2) (4-9)
当机器人远离目标点时ΛR(t)=β,当机器人到达目标点时ΛR(t)=0,β为碰撞系数,β的大小由巡检过程中避免碰撞的重要性决定;
下面利用(4-4)中的成本函数求解最优控制输入,(4-4)式两边对t求导,贝尔曼方程写为:
令Fζ(t)=ζtanh(L(t)-LD)T(L(t)-LD),定义最优值函数为:
根据(4-10)式定义HJB方程为:
其中
在稳定性条件下有(4-12)式两边同时对U求导得:
移项后得最优控制输入U*(t)为:
将(4-14)代入到(4-5)中得:
其中l为全为一的列向量,将(4-14)代入(4-15)中得:
其中将(4-16)代入(4-12)中得:
利用基于积分强化学习的策略迭代算法求解HJB方程,积分强化学习使用(t,t+T)内的信号用于学习,不需要知道系统具体的动力学模型;
首先将值函数改写成积分差值的形式,得到如下的贝尔曼方程:
为能够在线实时地求解(4-18),引入actor-critic神经网络算法来实现策略迭代过程中的实时更新;首先通过critic神经网络对值函数V(X)进行近似逼近,因为
而其中第一项为易求得的二次型,只对第二项进行逼近,并设用神经网络对V0(X)进行逼近得:
其中wc为critic神经网络的权重,ψc(X)为基函数,εc(X)为逼近误差;
将(4-20)两边对X求微分得:
将(4-20)代入到(4-18)中得到新的贝尔曼方程:
其中εe(t)=εc(X(t+T))-εc(X(t))为贝尔曼方程误差,Δψc(X(t)=ψc(X(t+T)-ψc(X(t);
为确定wc,将(4-20)改写成:
其中为V0(X)的近似值,为理想的逼近系数,则(4-22)式为:
令为贝尔曼跟踪误差,并构造以下目标函数,通过使得εe(t)最小化来调整critic神经网络的权重系数:
将(4-25)式两边对求导,再由链式法则得:
其中βc0为学习率,为Δψc的近似值;
将Ee代入到(4-26)得critic神经网络的权重系数的更新应服从:
将得到的理想权重系数代入到(4-14)中得最优控制策略,然而通过critic逼近的值函数所求得的最优策略却并不能保证闭环系统的稳定性,要为执行器引入actor神经网络来保证收敛到最优解的同时还能够保证系统的稳定性:
为actor神经网络的最优逼近系数,的更新由以下李雅普诺夫函数来确定:
当wa满足下式时,所逼近的策略使得系统一致最终有界,通过得到U*(t);
其中K1、K2为设计好的正常数,
基于(4-19)、(4-27)、(4-28)和(4-30)式,分别利用critic和actor算法实现对值函数和策略函数的同步更新,设计一种基于策略迭代的在线积分强化学习算法来求解HJB方程,以求解最优控制输入;
算法:基于策略迭代的在线IRL算法
初始化:给定一个可行的执行器输入
Step1:策略评估,给定初始利用下式求解
Step2:策略改进,将代入下式更新
Step3:令返回Step1,直至收敛到最小值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110419574.2/1.html,转载请声明来源钻瓜专利网。