[发明专利]一种基于Q学习的AUV浮力调节方法有效
| 申请号: | 202010526724.5 | 申请日: | 2020-06-11 |
| 公开(公告)号: | CN113799949B | 公开(公告)日: | 2022-07-26 |
| 发明(设计)人: | 贾松力;林扬;朱兴华;孙铁;孙铁铭 | 申请(专利权)人: | 中国科学院沈阳自动化研究所 |
| 主分类号: | B63G8/24 | 分类号: | B63G8/24;B63G8/00;G06F16/22;G06F16/23;G06N20/00 |
| 代理公司: | 沈阳科苑专利商标代理有限公司 21002 | 代理人: | 王倩 |
| 地址: | 110016 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 学习 auv 浮力 调节 方法 | ||
1.一种基于Q学习的AUV浮力调节方法,其特征在于,包括以下步骤:
根据不同AUV的执行机构构建系统环境状态集,根据浮力调节系统的能力及AUV的实际特性构建浮力调节动作集,从而形成初始Q表;
确定用于更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表;
根据更新后的Q表选择浮力调节动作,调节AUV浮力;
所述确定用于更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表,包括以下步骤:
(1)等待航行稳态的建立,记录航行稳态下的纵倾角和执行机构操控量;当纵倾角的变化量和执行机构操控量的变化量均小于各自变化量阈值且持续设定时间的情况下,认为航行稳态;
(2)判断航行稳态下浮力调节系统是否处于理想状态;所述理想状态为纵倾角和执行机构操控量均处于各自门限值区间内部分时的状态;如果不处于理想状态,则执行根据epsilon贪婪策略选取的调节动作,转步骤(3);否则等待;
(3)重新等待航行稳态的建立,根据新航行稳态和前一航行稳态下纵倾角和执行机构操控量的变化情况计算奖励值,利用产生的奖励并根据如下Bellman公式对Q表进行更新:
其中,NewQ(si,aj)为更新后的Q值;Q(si,aj)为更新前的Q值;maxQ(si+1,a)表示采取动作aj后到达的新的状态si+1下可能采取的各动作对应的Q值中的最大值,其中,a表示采取动作aj后到达的新的状态si+1下可能采取的动作,A表示动作集,a∈A;α为学习率,R(si,aj)为在状态si执行调节动作aj转移至状态si+1所产生的瞬时奖励;γ为折扣率;
所述奖励值通过奖励函数获取,如下式所示:
其中,R为当前奖励值,Pi和Ri为当前稳态下的纵倾角和执行机构操控量,Pi-1和Ri-1为上一稳态下的纵倾角和执行机构操控量;
当纵倾角和执行机构操控量绝对值均变小时,则说明调节有效,给予正奖励,即+rValue;当纵倾角和执行机构操控量绝对值均变大时,说明调节起到了反作用,给予负奖励,即-rValue;其它情况均给予零奖励(0)。
2.根据权利要求1所述的基于Q学习的AUV浮力调节方法,其特征在于:所述系统环境状态集为:AUV纵倾角状态与执行机构操控量状态不同组合所对应的状态;其中,AUV纵倾角状态和执行机构操控量状态分别由纵倾角和执行机构操控量根据纵倾角门限值、执行机构操控量门限值离散化处理得到。
3.根据权利要求2所述的基于Q学习的AUV浮力调节方法,其特征在于:所述纵倾角和执行机构操控量进行离散化处理,具体是根据各自的门限值将值域空间划分为3部分:小于门限值相反数部分、处于门限值区间内部分、大于门限值部分;使AUV稳态航行时的纵倾角和执行机构操控量调节到绝对值同时小于相应门限值的状态。
4.根据权利要求1所述的基于Q学习的AUV浮力调节方法,其特征在于:所述浮力调节动作集包括:浮力调节和力矩调节的多种组合对应的调节动作,浮力调节和力矩调节的每次调节量限定为设定值。
5.根据权利要求1所述的基于Q学习的AUV浮力调节方法,其特征在于:所述Q表包括:基于系统环境状态集和浮力调节动作集的Q表中,行表示状态,列表示每个状态下可以执行的各个调节动作;各单元格中期望收益值Q(i,j)中的i表示状态的编号,j表示调节动作的编号。
6.根据权利要求1所述的基于Q学习的AUV浮力调节方法,其特征在于:所述根据更新后的Q表选择浮力调节动作具体为:
所述更新后的Q表通过Q学习的进行,各状态下最优动作对应的Q值增加,某种状态的最大Q值所对应的调节动作为选取的浮力调节动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院沈阳自动化研究所,未经中国科学院沈阳自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010526724.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向欠驱动AUV的航行控制方法
- 下一篇:洗衣机及其控制方法





