[发明专利]基于积分强化学习的多消防巡检协作机器人系统有效

申请号：	202110419574.2	申请日：	2021-04-19
公开（公告）号：	CN113134187B	公开（公告）日：	2022-04-29
发明（设计）人：	陈刚;刘智	申请（专利权）人：	重庆大学
主分类号：	A62C27/00	分类号：	A62C27/00;A62C37/00;A62C37/50
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400044 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于积分强化学习消防巡检协作机器人系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于积分强化学习的多消防巡检协作机器人系统，其特征在于：包括依次连接的硬件层、交互层、感知层和控制层；

所述硬件层采用DSP作为控制器，将里程计和陀螺仪采集到的数据送入DSP内部进行处理，实时计算出机器人在巡检地图中的位置；通过上位机向DSP发送速度指令，DSP将获取到速度信息编码后以控制伺服电机的运转；消防巡检机器人采用的是履带式驱动；当机械臂需要动作时，由上位机中的ros系统通过在moveit！平台对机械臂将要移动到的目标点进行运动轨迹规划，将规划好的运动轨迹离散化后发送到DSP中，DSP获得各个轴的角速度、加速度后控制机械臂的伺服电机运动以到达目标点；

所述感知层包括用于建图的激光雷达、避障的红外线传感器、检测火焰的火焰探测器、温度传感器和realsenseD435i深度摄像头、里程计和陀螺仪；

所述控制层为：

设整个消防巡检区域下共有N个机器人协同巡检，N个机器人从各自的初始位置(x_i0，y_i0)要到达各自的目的地(x_iD，y_iD)，i∈{1，2，…，N}，设第i个消防巡检机器人在t时刻的位置L_i(t)＝[L_ix(t)，L_iy(t)]^T，速度V_i(t)＝[V_ix(t)，V_iy(t)]^T，控制器输入U_i(t)＝[u_ix(t)，u_iy(t)]^T，控制输入和未知的环境扰动W_i(t)＝[W_ix(t)，W_iy(t)]^T，为避免执行器饱和，对输入进行约束，要求|U(t)|≤λ，其中λ为正常数；设两个巡检机器人之间的距离r_ij(t)＝||L_i(t)-L_j(t)||，为避免两个巡检机器人发生碰撞需要设置一个安全距离r_s，要求在巡检过程中的任意时刻都要满足r_ij(t)≥r_s，设当N个机器人到达巡检目的地后保证r_ij(t)＞＞r_s，此时i≠j；

则考虑第i个消防巡检机器人的二阶线性动力学模型为：

其中系统矩阵为A，输入矩阵为B，输出矩阵为C，干扰矩阵为D，为机器人在t时刻的状态，为输入，y_i(t)为系统唯一输出；

将全局动力学模型写为：

其中为Kronecker乘积，X(t)＝[x₁(t)，x₂(t)，...，x_n(t)]^T，Y(t)＝[y₁(t)，y₂(t)，...，y_n(t)]^T，I_N为N阶单位矩阵，且设L(t)＝[L_1t，L_2t，...，L_Nt]^T，L_D＝[L_1D，L_2D，...，L_ND]^T，U₀＝[U₁，U₂，...，U_N]^T分别为N个机器人的在t时刻的位置、目标点位置和控制输入；

为使N个消防巡检机器人在未知的扰动下实现在连续时间、连续状态和控制输入空间中的最小时间和能量的最优控制，并且在整个过程中要避免碰撞，考虑以下成本函数：

其中ζ0，用于表示巡检过程中时间的比重，R为正定矩阵；为求解机器人最小到达时间T未知的路径规划问题，引入双曲正切函数将成本函数改写成无穷积分的形式以便求解，另外为避免执行器饱和，还想要对输入进行约束，将U(t)^TRU(t)线性二次型改写成非二次型性能函数φ(U(t)用于逼近最小能量成本并且捕获输入约束，且为避免两个机器人之间发生碰撞引入了人工势场函数，将成本函数近似改写为：

其中ζ为正常数，tanh为双曲正切函数，该函数为单调递增的奇函数且连续可微，成本函数是IRL可解的形式；将ζ改写为ζtanh(L(t)-L_D)^T(L(t)-L_D)，当机器人当前位置L(t)距离目标点L_D时ζtanh(L(t)-L_D)^T(L(t)-L_D)近似为ζ，到达目标点时ζtanh(L(t)-L_D)^T(L(t)-L_D)＝0，将未知时间的T积分转化为与到达时间T无关的无穷积分，以实现对值函数的最优求解；

将U(t)^TRU(t)线性二次型改写成非二次型性能函数φ(U(t)用于逼近最小能量成本并且捕获输入约束：

其中输入约束为|U(t)|≤λ，λ和σ均为正常数，R＝diag(r₁，r₂...r_m)＞0；

为避免任何一对巡检机器人发生碰撞，加入人工势场函数f_R(r_ij(t))使得两个机器人之间发出排斥势场使得二者相互避开，为使得加入势场函数之后的V(x(t)，U(t))有界，设计权重矩阵Λ_R(t)，用于抵消非零尾部；将排斥函数f_R(r_ij(t))定义高斯函数的形式，且该高斯函数总是大于0：

其中s越大则排斥函数的陡度就越大，σ越大排斥范围也越大；为捕捉排斥距离r_ij(t)，求解排斥函数中的s和σ，设有：

f_R(r_s)＝K₀；f_R(r_s+Δ)＝K₁ (4-7)

其中0＜K₁＜K₀＜1；Δ为正增量，代入得：

通过权重矩阵Λ_R(t)＝[Λ₁₂(t)，Λ₁₃(t)，...，Λ_N-1，N(t)]^T来使得引入人工势场函数后的值函数是有界的，且权重矩阵取决于与目标点的距离；

Λ_R(t)＝βtanh(||L_i(t)-L_iD||²+||L_j(t)-L_jD||²) (4-9)

当机器人远离目标点时Λ_R(t)＝β，当机器人到达目标点时Λ_R(t)＝0，β为碰撞系数，β的大小由巡检过程中避免碰撞的重要性决定；

下面利用(4-4)中的成本函数求解最优控制输入，(4-4)式两边对t求导，贝尔曼方程写为：

令F_ζ(t)＝ζtanh(L(t)-L_D)^T(L(t)-L_D)，定义最优值函数为：

根据(4-10)式定义HJB方程为：

其中

在稳定性条件下有(4-12)式两边同时对U求导得：

移项后得最优控制输入U^*(t)为：

将(4-14)代入到(4-5)中得：

其中l为全为一的列向量，将(4-14)代入(4-15)中得：

其中将(4-16)代入(4-12)中得：

利用基于积分强化学习的策略迭代算法求解HJB方程，积分强化学习使用(t，t+T)内的信号用于学习，不需要知道系统具体的动力学模型；

首先将值函数改写成积分差值的形式，得到如下的贝尔曼方程：

为能够在线实时地求解(4-18)，引入actor-critic神经网络算法来实现策略迭代过程中的实时更新；首先通过critic神经网络对值函数V(X)进行近似逼近，因为

而其中第一项为易求得的二次型，只对第二项进行逼近，并设用神经网络对V₀(X)进行逼近得：

其中w_c为critic神经网络的权重，ψ_c(X)为基函数，ε_c(X)为逼近误差；

将(4-20)两边对X求微分得：

将(4-20)代入到(4-18)中得到新的贝尔曼方程：

其中ε_e(t)＝ε_c(X(t+T))-ε_c(X(t))为贝尔曼方程误差，Δψ_c(X(t)＝ψ_c(X(t+T)-ψ_c(X(t)；

为确定w_c，将(4-20)改写成：

其中为V₀(X)的近似值，为理想的逼近系数，则(4-22)式为：

令为贝尔曼跟踪误差，并构造以下目标函数，通过使得ε_e(t)最小化来调整critic神经网络的权重系数：

将(4-25)式两边对求导，再由链式法则得：

其中β_c0为学习率，为Δψ_c的近似值；

将E_e代入到(4-26)得critic神经网络的权重系数的更新应服从：

将得到的理想权重系数代入到(4-14)中得最优控制策略，然而通过critic逼近的值函数所求得的最优策略却并不能保证闭环系统的稳定性，要为执行器引入actor神经网络来保证收敛到最优解的同时还能够保证系统的稳定性：

为actor神经网络的最优逼近系数，的更新由以下李雅普诺夫函数来确定：

当w_a满足下式时，所逼近的策略使得系统一致最终有界，通过得到U^*(t)；

其中K₁、K₂为设计好的正常数，

基于(4-19)、(4-27)、(4-28)和(4-30)式，分别利用critic和actor算法实现对值函数和策略函数的同步更新，设计一种基于策略迭代的在线积分强化学习算法来求解HJB方程，以求解最优控制输入；

算法：基于策略迭代的在线IRL算法

初始化：给定一个可行的执行器输入

Step1：策略评估，给定初始利用下式求解

Step2：策略改进，将代入下式更新

Step3：令返回Step1，直至收敛到最小值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110419574.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种有效利用不规则空间且方便检修的浴缸及其使用方法
下一篇：一种基于多孔碳球的光热材料及其制备方法

同类专利

专利分类

A 农业

A62 救生；消防
A62C 消防
A62C27-00 陆地灭火车辆

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于积分强化学习的多消防巡检协作机器人系统有效

专利文献下载