[发明专利]一种基于深度强化学习的水下滑翔机姿态控制方法在审
| 申请号: | 202010925225.3 | 申请日: | 2020-09-06 |
| 公开(公告)号: | CN112100834A | 公开(公告)日: | 2020-12-18 |
| 发明(设计)人: | 高剑;宋保维;潘光;张福斌;王鹏;曹永辉;杜晓旭;彭星光 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G06F30/20 | 分类号: | G06F30/20;G06N3/04;G06N3/06;G06N3/08 |
| 代理公司: | 西北工业大学专利中心 61204 | 代理人: | 陈星 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 水下 滑翔机 姿态 控制 方法 | ||
1.一种基于深度强化学习的水下滑翔机姿态控制方法,其特征在于:包括以下步骤:
步骤1:建立当前决策神经网络、当前评价神经网络、目标决策神经网络和目标评价神经网络;决策神经网络采用水下滑翔机的状态值作为输入量,采用水下滑翔机的控制量a作为输出动作;评价神经网络有以水下滑翔机的状态值和控制量为输入,以评价值为输出;初始化4个神经网络的参数,初始化记忆库以及数据缓冲区;
步骤2:获得当前时刻下水下滑翔机的状态值st,将状态值输入当前决策神经网络计算出在当前时刻姿态控制器的输出动作at,将输出的动作at施加给水下滑翔机仿真器,得到下一时刻水下滑翔机的状态值st+1;根据当前时刻的状态st、当前时刻的动作at、目标俯仰角θd和下一时刻的状态st+1计算出当前时刻的奖励值rt;
步骤3:将步骤2中获得的状态(st,at,rt,st+1)作为一组经验数据单元储存在记忆库中,将t自增1;判断t与设定的记忆库大小n之间关系,如果t<n,则利用更新后的st返回步骤2,直至记忆库中存储的经验数据单元数量满足n的要求后,进入步骤4;
步骤4:从记忆库中采样指定数目为N的经验数据单元存放到缓冲区中;
步骤5:在缓冲区中N个经验数据单元采样m个经验数据单元;对采样得到的m个经验数据单元按照以下过程进行逐一处理:
对于某个经验数据单元(st,at,rt,st+1),将状态st和动作信号at输入到当前评价神经网络中得到当前评价神经网络的评价值Q;将下一时刻状态st+1输入目标决策神经网络中,得到目标决策神经网络输出的执行机构的动作信号μ';将下一时刻状态st+1和目标决策神经网络输出的动作值μ'输入到目标评价神经网络中得到目标评价神经网络的评价值Q';
利用当前评价神经网络的评价值Q和目标评价神经网络的评价值Q'以及评价神经网络的损失函数L计算出当前评价神经网络的梯度值
步骤6:当前评价神经网络更新:根据当前评价神经网络的梯度对当前评价神经网络参数σQ自增进行更新,α为评价神经网络的学习率;
步骤7:计算当前决策神经网络的梯度
步骤8:当前决策神经网络更新:根据当前决策神经网络的梯度对当前决策神经网络参数σμ自增进行更新,β为决策神经网络的学习率;
步骤9:目标评价神经网络与目标决策神经网络更新:根据更新后的当前评价神经网络参数对目标评价神经网络参数进行更新,根据更新后的当前决策神经网络参数对目标决策神经网络参数进行更新;
步骤10:判断训练次数是否超过设定训练次数,如果超过设定训练次数,则停止训练,保存4个神经网络的参数值,如果没有超过设定的训练次数,则返回步骤4,重新在记忆库中采样指定数目为N的经验数据单元存放到缓冲区中;
步骤11:得到训练完成的深度强化学习神经网络模型后,应用到实际水下滑翔机在纵平面滑翔运动中,给定目标俯仰角,采集水下滑翔机的状态值输入到深度强化学习神经网络模型得到控制量实现水下滑翔机姿态控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010925225.3/1.html,转载请声明来源钻瓜专利网。





