[发明专利]基于图像特征深度强化学习的AUV管道循管方法有效

专利信息
申请号: 201811143861.X 申请日: 2018-09-29
公开(公告)号: CN109407682B 公开(公告)日: 2021-06-15
发明(设计)人: 林远山;王芳;于红;常亚青;崔新忠;刘亚楠;孙圣禹;吕泽宇;宋梓奇;曹凯惠 申请(专利权)人: 大连海洋大学
主分类号: G05D1/06 分类号: G05D1/06
代理公司: 大连非凡专利事务所 21220 代理人: 闪红霞
地址: 116023 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于图像特征深度强化学习的AUV管道循管方法。首先,将AUV循管控制问题建模为连续状态、连续动作的Markov决策过程;其次,控制策略抽象为AUV观测状态(摄像头获取的图像)到运动动作的映射,并利用深度神经网络表达;最后,利用近端策略优化(PPO)方法自主采集数据并训练深度神经网络,最终获得具有一定泛化能力的端到端的循管控制策略。仿真结果表明,本发明能够有效控制AUV的循管动作,而且对于新的和未知的管道几何结构具有较强的泛化能力。该方法是一种端到端(end‑to‑end)的视觉循管运动控制方法,无需知晓AUV的运动学/动力学模型,也无需人工特征提取。
搜索关键词: 基于 图像 特征 深度 强化 学习 auv 管道 方法
【主权项】:
1.一种基于图像特征深度强化学习的AUV管道循管方法,其特征在于依次按如下步骤进行:步骤1 根据公式(1)和公式(2)的定义建立两个策略模型,  (1),  (2)所述表示旧策略模型;表示正在训练的策略模型;表示策略模型计算得到的动作;s表示AUV的状态;N表示高斯分布,为该高斯分布的协方差矩阵,使用单位阵表示,为该高斯分布的均值;所述 是从AUV的状态数据到AUV的线速度和角速度的映射,采用深度神经网络表示,所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层,构建步骤如下:步骤1.1 第1层为输入层,输入一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据;步骤1.2 第2层为卷积层,使用32个大小为6×6的卷积滤波器,以5个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;步骤1.3 第3层为卷积层,使用64个大小为4×4的卷积滤波器,以3个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;步骤1.4 第4层为卷积层,使用64个大小为2×2的卷积滤波器,以2个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;步骤1.5 第5层为全连接层,由512个单元进行全连接组成;步骤1.6 第6层为输出层,输出,即AUV的线速度和角速度;步骤1.7建立从AUV的状态到一个实数值的映射,所述映射共享网络结构的前5层,在第5层之后再构建另一个输出;步骤2. 采用近端策略优化强化学习算法,训练的深度神经网络参数:步骤2.1 初始化PPO算法的裁剪参数,轨迹长度T等超级参数;步骤2.2 初始化策略模型,使用‑1.0到1.0的随机数对其中的神经网络参数进行初始化;步骤2.3 令迭代次数i = 1;步骤2.4 用旧策略模型与环境实体进行交互,获得T个时间步长的经验数据,所述表示时刻且1< t < T,表示AUV搭载的摄像机在第时刻采集到的图像,用来表示AUV的状态数据,表示在第个时刻旧策略模型指导AUV所选择的动作,表示AUV执行动作时所获得的即时奖励,表示AUV在状态的值函数值,表示AUV执行动作后该回合是否结束,具体步骤如下:步骤 a) 令;步骤 b) AUV所搭载的摄像机采集到图像,将其输入旧策略模型,得到动作;步骤 c) AUV执行动作,从摄像头获取到图像,根据判断是否远离管道,若远离管道,让时为=‑ 0.1且=1,否则=0.05且=0;步骤 d) 根据公式计算得到;步骤 e) 将组成一个5元组,作为经验数据存储到数据集D中;步骤 f) 令,若,则转入步骤2.5,否则转入步骤2.4 b);步骤2.5 对于数据集D中的每个5元组,其中,根据,按照公式(3)计算每步动作的优势值,并将其插入数据集D中;  (3)所述表示执行动作的优势值;表示在t时刻状态的值函数;表示AUV执行动作时所获得的即时奖励;表示折扣因子;步骤2.6 更新旧策略模型,即令,将当前策略模型的神经网络参数赋值给旧策略模型的神经网络;步骤2.7 利用收集到的数据集D,采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化,更新当前策略模型的参数,具体步骤如下:步骤 a) 令;步骤 b) 令;步骤 c) 从数据集D中取出b条经验数据,根据公式(4)计算出损失函数值及其梯度值g;  (4)所述表示需要优化的损失函数;表示对括号内的表达式求期望值;表示动作的优势函数估计值;表示截断参数,PPO算法的一个超级参数,通常设定为0.2;步骤 d) 更新当前策略模型,即;步骤 e) 令,若,则转到步骤f),否则转到步骤c);步骤 f) 令,若,则转到步骤2.8,否则转到步骤b);步骤2.8 令,若,则结束训练,得到了以为参数的循管策略模型,转入步骤3,否则转入步骤2.4;步骤3. 将智能决策模型部署到AUV中,用于控制其循管运动;步骤3.1 利用AUV搭载的摄像机中拍摄一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据;步骤3.2 将状态数据输入智能决策模型,计算得到AUV应执行的循管动作;步骤3.3 向AUV发出命令,使其执行循管动作;步骤3.4 若接收到人为命令,则AUV的运动由远程操控人员接管,否则延时q秒后转入步骤3.1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海洋大学,未经大连海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811143861.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top