[发明专利]基于积分强化学习的多消防巡检协作机器人系统有效

专利信息
申请号: 202110419574.2 申请日: 2021-04-19
公开(公告)号: CN113134187B 公开(公告)日: 2022-04-29
发明(设计)人: 陈刚;刘智 申请(专利权)人: 重庆大学
主分类号: A62C27/00 分类号: A62C27/00;A62C37/00;A62C37/50
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 赵荣之
地址: 400044 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 积分 强化 学习 消防 巡检 协作 机器人 系统
【权利要求书】:

1.基于积分强化学习的多消防巡检协作机器人系统,其特征在于:包括依次连接的硬件层、交互层、感知层和控制层;

所述硬件层采用DSP作为控制器,将里程计和陀螺仪采集到的数据送入DSP内部进行处理,实时计算出机器人在巡检地图中的位置;通过上位机向DSP发送速度指令,DSP将获取到速度信息编码后以控制伺服电机的运转;消防巡检机器人采用的是履带式驱动;当机械臂需要动作时,由上位机中的ros系统通过在moveit!平台对机械臂将要移动到的目标点进行运动轨迹规划,将规划好的运动轨迹离散化后发送到DSP中,DSP获得各个轴的角速度、加速度后控制机械臂的伺服电机运动以到达目标点;

所述感知层包括用于建图的激光雷达、避障的红外线传感器、检测火焰的火焰探测器、温度传感器和realsenseD435i深度摄像头、里程计和陀螺仪;

所述控制层为:

设整个消防巡检区域下共有N个机器人协同巡检,N个机器人从各自的初始位置(xi0,yi0)要到达各自的目的地(xiD,yiD),i∈{1,2,…,N},设第i个消防巡检机器人在t时刻的位置Li(t)=[Lix(t),Liy(t)]T,速度Vi(t)=[Vix(t),Viy(t)]T,控制器输入Ui(t)=[uix(t),uiy(t)]T,控制输入和未知的环境扰动Wi(t)=[Wix(t),Wiy(t)]T,为避免执行器饱和,对输入进行约束,要求|U(t)|≤λ,其中λ为正常数;设两个巡检机器人之间的距离rij(t)=||Li(t)-Lj(t)||,为避免两个巡检机器人发生碰撞需要设置一个安全距离rs,要求在巡检过程中的任意时刻都要满足rij(t)≥rs,设当N个机器人到达巡检目的地后保证rij(t)>>rs,此时i≠j;

则考虑第i个消防巡检机器人的二阶线性动力学模型为:

其中系统矩阵为A,输入矩阵为B,输出矩阵为C,干扰矩阵为D,为机器人在t时刻的状态,为输入,yi(t)为系统唯一输出;

将全局动力学模型写为:

其中为Kronecker乘积,X(t)=[x1(t),x2(t),...,xn(t)]T,Y(t)=[y1(t),y2(t),...,yn(t)]T,IN为N阶单位矩阵,且设L(t)=[L1t,L2t,...,LNt]T,LD=[L1D,L2D,...,LND]T,U0=[U1,U2,...,UN]T分别为N个机器人的在t时刻的位置、目标点位置和控制输入;

为使N个消防巡检机器人在未知的扰动下实现在连续时间、连续状态和控制输入空间中的最小时间和能量的最优控制,并且在整个过程中要避免碰撞,考虑以下成本函数:

其中ζ0,用于表示巡检过程中时间的比重,R为正定矩阵;为求解机器人最小到达时间T未知的路径规划问题,引入双曲正切函数将成本函数改写成无穷积分的形式以便求解,另外为避免执行器饱和,还想要对输入进行约束,将U(t)TRU(t)线性二次型改写成非二次型性能函数φ(U(t)用于逼近最小能量成本并且捕获输入约束,且为避免两个机器人之间发生碰撞引入了人工势场函数,将成本函数近似改写为:

其中ζ为正常数,tanh为双曲正切函数,该函数为单调递增的奇函数且连续可微,成本函数是IRL可解的形式;将ζ改写为ζtanh(L(t)-LD)T(L(t)-LD),当机器人当前位置L(t)距离目标点LD时ζtanh(L(t)-LD)T(L(t)-LD)近似为ζ,到达目标点时ζtanh(L(t)-LD)T(L(t)-LD)=0,将未知时间的T积分转化为与到达时间T无关的无穷积分,以实现对值函数的最优求解;

将U(t)TRU(t)线性二次型改写成非二次型性能函数φ(U(t)用于逼近最小能量成本并且捕获输入约束:

其中输入约束为|U(t)|≤λ,λ和σ均为正常数,R=diag(r1,r2...rm)>0;

为避免任何一对巡检机器人发生碰撞,加入人工势场函数fR(rij(t))使得两个机器人之间发出排斥势场使得二者相互避开,为使得加入势场函数之后的V(x(t),U(t))有界,设计权重矩阵ΛR(t),用于抵消非零尾部;将排斥函数fR(rij(t))定义高斯函数的形式,且该高斯函数总是大于0:

其中s越大则排斥函数的陡度就越大,σ越大排斥范围也越大;为捕捉排斥距离rij(t),求解排斥函数中的s和σ,设有:

fR(rs)=K0;fR(rs+Δ)=K1 (4-7)

其中0<K1<K0<1;Δ为正增量,代入得:

通过权重矩阵ΛR(t)=[Λ12(t),Λ13(t),...,ΛN-1,N(t)]T来使得引入人工势场函数后的值函数是有界的,且权重矩阵取决于与目标点的距离;

ΛR(t)=βtanh(||Li(t)-LiD||2+||Lj(t)-LjD||2) (4-9)

当机器人远离目标点时ΛR(t)=β,当机器人到达目标点时ΛR(t)=0,β为碰撞系数,β的大小由巡检过程中避免碰撞的重要性决定;

下面利用(4-4)中的成本函数求解最优控制输入,(4-4)式两边对t求导,贝尔曼方程写为:

令Fζ(t)=ζtanh(L(t)-LD)T(L(t)-LD),定义最优值函数为:

根据(4-10)式定义HJB方程为:

其中

在稳定性条件下有(4-12)式两边同时对U求导得:

移项后得最优控制输入U*(t)为:

将(4-14)代入到(4-5)中得:

其中l为全为一的列向量,将(4-14)代入(4-15)中得:

其中将(4-16)代入(4-12)中得:

利用基于积分强化学习的策略迭代算法求解HJB方程,积分强化学习使用(t,t+T)内的信号用于学习,不需要知道系统具体的动力学模型;

首先将值函数改写成积分差值的形式,得到如下的贝尔曼方程:

为能够在线实时地求解(4-18),引入actor-critic神经网络算法来实现策略迭代过程中的实时更新;首先通过critic神经网络对值函数V(X)进行近似逼近,因为

而其中第一项为易求得的二次型,只对第二项进行逼近,并设用神经网络对V0(X)进行逼近得:

其中wc为critic神经网络的权重,ψc(X)为基函数,εc(X)为逼近误差;

将(4-20)两边对X求微分得:

将(4-20)代入到(4-18)中得到新的贝尔曼方程:

其中εe(t)=εc(X(t+T))-εc(X(t))为贝尔曼方程误差,Δψc(X(t)=ψc(X(t+T)-ψc(X(t);

为确定wc,将(4-20)改写成:

其中为V0(X)的近似值,为理想的逼近系数,则(4-22)式为:

令为贝尔曼跟踪误差,并构造以下目标函数,通过使得εe(t)最小化来调整critic神经网络的权重系数:

将(4-25)式两边对求导,再由链式法则得:

其中βc0为学习率,为Δψc的近似值;

将Ee代入到(4-26)得critic神经网络的权重系数的更新应服从:

将得到的理想权重系数代入到(4-14)中得最优控制策略,然而通过critic逼近的值函数所求得的最优策略却并不能保证闭环系统的稳定性,要为执行器引入actor神经网络来保证收敛到最优解的同时还能够保证系统的稳定性:

为actor神经网络的最优逼近系数,的更新由以下李雅普诺夫函数来确定:

当wa满足下式时,所逼近的策略使得系统一致最终有界,通过得到U*(t);

其中K1、K2为设计好的正常数,

基于(4-19)、(4-27)、(4-28)和(4-30)式,分别利用critic和actor算法实现对值函数和策略函数的同步更新,设计一种基于策略迭代的在线积分强化学习算法来求解HJB方程,以求解最优控制输入;

算法:基于策略迭代的在线IRL算法

初始化:给定一个可行的执行器输入

Step1:策略评估,给定初始利用下式求解

Step2:策略改进,将代入下式更新

Step3:令返回Step1,直至收敛到最小值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110419574.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top