[发明专利]一种基于深度强化学习的水下滑翔机姿态控制方法在审
| 申请号: | 202010925225.3 | 申请日: | 2020-09-06 |
| 公开(公告)号: | CN112100834A | 公开(公告)日: | 2020-12-18 |
| 发明(设计)人: | 高剑;宋保维;潘光;张福斌;王鹏;曹永辉;杜晓旭;彭星光 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G06F30/20 | 分类号: | G06F30/20;G06N3/04;G06N3/06;G06N3/08 |
| 代理公司: | 西北工业大学专利中心 61204 | 代理人: | 陈星 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 水下 滑翔机 姿态 控制 方法 | ||
本发明提出一种基于深度强化学习的水下滑翔机姿态控制方法,包括学习阶段和应用阶段,在学习阶段通过仿真模拟水下滑翔机的运动过程同时记录运动的实时数据,根据运动数据更新当前决策神经网络、当前评价神经网络、目标决策神经网络和目标评价神经网络的参数;得到训练完成的深度强化学习神经网络模型后,应用到实际水下滑翔机在纵平面滑翔运动中,给定目标俯仰角θd,采集水下滑翔机的状态值输入到深度强化学习神经网络模型得到控制量实现水下滑翔机姿态控制。本发明基于仿真模型数据或者人工实验数据进行学习,实现水下滑翔机姿态的控制,学习方式简单;而且无需得到水下滑翔机的精确数学模型,同时在复杂环境下同样适用。
技术领域
本发明涉及一种水下机器人的控制技术,具体说是一种基于深度强化学习的水下滑翔机姿态控制方法。
背景技术
水下滑翔机是一种将浮标、潜标技术与水下机器人技术相结合而研制出的一种无外挂、依靠自身重力驱动的新型水下航行器。其主要特点是:运动控制不依靠螺旋桨推进系统,而是通过调节滑翔机净浮力,实现上下沉浮运动,利用附于机身的水平机翼产生斜向上、或斜向下的升力,操纵滑翔机向前滑翔。水下滑翔机克服了水下航行器功率大、航行时间短的缺点,大大降低了运行成本和制造成本,提高了续航时间,在军事上和海洋探索研究上非常有实用价值。
水下滑翔机的运动姿态容易受海流与波浪的影响,同时水下滑翔机机体结构复杂,动力方式单一,动力学模型表现为强非线性,准确的模型参数不易得到而且在不同的水域环境下构建的模型也缺乏普适性。虽然许多传统的控制方法可以实现水下滑翔机的姿态控制且能达到一定的控制精度,但仍然不能满足高精度的要求,而且控制过程较为复杂。
发明内容
要解决的技术问题
本发明的目的是克服现有技术的缺点和不足,提供一种基于深度强化学习的水下滑翔机姿态控制方法,建立深度强化学习神经网络模型,通过对仿真模型数据或者人工实验数据进行学习,可以实现水下滑翔机姿态的精确控制。
技术方案
本发明提出的基于深度强化学习的水下滑翔机姿态控制方法包括学习阶段和应用阶段,在学习阶段通过仿真模拟水下滑翔机的运动过程同时记录运动的实时数据,根据运动数据更新当前决策神经网络、当前评价神经网络、目标决策神经网络和目标评价神经网络的参数,具体步骤如下:
步骤1:建立4个BP神经网络,分别为当前决策神经网络、当前评价神经网络、目标决策神经网络和目标评价神经网络。当前决策神经网络与目标决策神经网络称为决策神经网络,当前评价神经网络和目标评价神经网络称为评价神经网络。决策神经网络采用水下滑翔机的状态值作为输入量,而采用水下滑翔机的控制量a作为输出动作。评价神经网络有以水下滑翔机的状态值和控制量为输入,以评价值为输出;
构建神经网络之后,初始化4个神经网络的参数,初始化记忆库以及数据缓冲区的大小。
步骤2:获得当前时刻下水下滑翔机的状态值st,将状态值输入当前决策神经网络计算出在当前时刻姿态控制器的输出动作at,将输出的动作at施加给水下滑翔机仿真器,得到下一时刻水下滑翔机的状态值st+1。根据当前时刻的状态st、当前时刻的动作at、目标俯仰角θd和下一时刻的状态st+1计算出当前时刻的奖励值rt。
优选rt取值为:
rt=r1+r2+r3
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010925225.3/2.html,转载请声明来源钻瓜专利网。





