[发明专利]基于图像特征深度强化学习的AUV管道循管方法有效
| 申请号: | 201811143861.X | 申请日: | 2018-09-29 |
| 公开(公告)号: | CN109407682B | 公开(公告)日: | 2021-06-15 |
| 发明(设计)人: | 林远山;王芳;于红;常亚青;崔新忠;刘亚楠;孙圣禹;吕泽宇;宋梓奇;曹凯惠 | 申请(专利权)人: | 大连海洋大学 |
| 主分类号: | G05D1/06 | 分类号: | G05D1/06 |
| 代理公司: | 大连非凡专利事务所 21220 | 代理人: | 闪红霞 |
| 地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开一种基于图像特征深度强化学习的AUV管道循管方法。首先,将AUV循管控制问题建模为连续状态、连续动作的Markov决策过程;其次,控制策略抽象为AUV观测状态(摄像头获取的图像)到运动动作的映射,并利用深度神经网络表达;最后,利用近端策略优化(PPO)方法自主采集数据并训练深度神经网络,最终获得具有一定泛化能力的端到端的循管控制策略。仿真结果表明,本发明能够有效控制AUV的循管动作,而且对于新的和未知的管道几何结构具有较强的泛化能力。该方法是一种端到端(end‑to‑end)的视觉循管运动控制方法,无需知晓AUV的运动学/动力学模型,也无需人工特征提取。 | ||
| 搜索关键词: | 基于 图像 特征 深度 强化 学习 auv 管道 方法 | ||
【主权项】:
1.一种基于图像特征深度强化学习的AUV管道循管方法,其特征在于依次按如下步骤进行:步骤1 根据公式(1)和公式(2)的定义建立两个策略模型
和
:
, (1)
, (2)所述
表示旧策略模型;
表示正在训练的策略模型;
表示策略模型计算得到的动作;s表示AUV的状态;N表示高斯分布,
为该高斯分布的协方差矩阵,使用单位阵表示,
为该高斯分布的均值;所述
是从AUV的状态数据
到AUV的线速度和角速度的映射,采用深度神经网络表示,所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层,构建步骤如下:步骤1.1 第1层为输入层,输入一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据
;步骤1.2 第2层为卷积层,使用32个大小为6×6的卷积滤波器,以5个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;步骤1.3 第3层为卷积层,使用64个大小为4×4的卷积滤波器,以3个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;步骤1.4 第4层为卷积层,使用64个大小为2×2的卷积滤波器,以2个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;步骤1.5 第5层为全连接层,由512个单元进行全连接组成;步骤1.6 第6层为输出层,输出
,即AUV的线速度和角速度;步骤1.7建立从AUV的状态到一个实数值的映射,所述映射共享
网络结构的前5层,在第5层之后再构建另一个输出
;步骤2. 采用近端策略优化强化学习算法,训练
和
的深度神经网络参数:步骤2.1 初始化PPO算法的裁剪参数,轨迹长度T等超级参数;步骤2.2 初始化策略模型
和
,使用‑1.0到1.0的随机数对其中的神经网络参数进行初始化;步骤2.3 令迭代次数i = 1;步骤2.4 用旧策略模型
与环境实体进行交互,获得T个时间步长的经验数据
,所述
表示时刻且1< t < T,
表示AUV搭载的摄像机在第
时刻采集到的图像,用来表示AUV的状态数据,
表示在第
个时刻旧策略模型
指导AUV所选择的动作,
表示AUV执行动作
时所获得的即时奖励,
表示AUV在状态的值函数值,
表示AUV执行动作
后该回合是否结束,具体步骤如下:步骤 a) 令
;步骤 b) AUV所搭载的摄像机采集到图像
,将其输入旧策略模型
,得到动作
;步骤 c) AUV执行动作
,从摄像头获取到图像
,根据
判断是否远离管道,若远离管道,让时为
=‑ 0.1且
=1,否则
=0.05且
=0;步骤 d) 根据公式
计算得到
;步骤 e) 将
、
、
、
、
组成一个5元组
,作为经验数据存储到数据集D中;步骤 f) 令
,若
,则转入步骤2.5,否则转入步骤2.4 b);步骤2.5 对于数据集D中的每个5元组
,其中,根据
、
、
,按照公式(3)计算每步动作的优势值
,并将其插入数据集D中;
(3)所述
表示执行动作
的优势值;
表示在t时刻状态的值函数;
表示AUV执行动作
时所获得的即时奖励;
表示折扣因子;步骤2.6 更新旧策略模型
,即令
,将当前策略模型的神经网络参数赋值给旧策略模型的神经网络;步骤2.7 利用收集到的数据集D,采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化,更新当前策略模型的参数,具体步骤如下:步骤 a) 令
;步骤 b) 令
;步骤 c) 从数据集D中取出b条经验数据,根据公式(4)计算出损失函数值及其梯度值g;
(4)所述
表示需要优化的损失函数;
表示对括号内的表达式求期望值;
表示动作
的优势函数估计值;
表示截断参数,PPO算法的一个超级参数,通常设定为0.2;步骤 d) 更新当前策略模型
的
,即
;步骤 e) 令
,若
,则转到步骤f),否则转到步骤c);步骤 f) 令
,若
,则转到步骤2.8,否则转到步骤b);步骤2.8 令
,若
,则结束训练,得到了以为
参数的循管策略模型
,转入步骤3,否则转入步骤2.4;步骤3. 将智能决策模型
部署到AUV中,用于控制其循管运动;步骤3.1 利用AUV搭载的摄像机中拍摄一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据
;步骤3.2 将状态数据
输入智能决策模型
,计算得到AUV应执行的循管动作
;步骤3.3 向AUV发出命令,使其执行循管动作
;步骤3.4 若接收到人为命令,则AUV的运动由远程操控人员接管,否则延时q秒后转入步骤3.1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海洋大学,未经大连海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811143861.X/,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





