[发明专利]一种基于强化学习和视线法的无人艇路径跟踪方法有效
申请号: | 202110517912.6 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113110504B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 董璐;熊国虹;刘剑;王远大 | 申请(专利权)人: | 南京云智控产业技术研究院有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
地址: | 210042 江苏省南京市玄武区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 视线 无人 路径 跟踪 方法 | ||
1.一种基于强化学习和视线法的无人艇路径跟踪方法,其特征在于,该方法包括如下步骤:
S1.搭建仿真模型并定义无人艇运动参数,利用软件vrep和gazebo搭建无人艇仿真环境,或者根据无人艇实际运动数据对它的运动模型进行拟合从而获得仿真模型;
S2.设计基于强化学习模型的基本框架,拟采用双层全连接神经网络作为Actor当前网络μ(s|θμ)、Actor目标网络μ′(s|θμ′)、Critic当前网络Q(s,a|θQ)、Critic目标网络Q′(s,a|θQ′)基本结构,激活函数采用Leaky-ReLU;
S3.设计强化学习和视线法结合的PID控制框架;
S4.对步骤S3中设计好的模型进行训练并保存训练参数;
S5.对于同样的初始状态做对比仿真实验、实艇实验;
步骤S1中所述无人艇运动参数定义为:
无人艇运动速度V、x轴速度u、y轴速度v、航向角ψ、角速度w、无人艇与目标航线的垂直距离h、目标航线的倾斜角度αk,航向角与目标航线倾角的偏差为αk-ψ,αφ为无人艇期望航向,β为漂角且β=tan-1(v/u),Δ为无人艇的可视距离,是无人水面艇在路径上的投影点T与导航点(xLOS,yLOS)之间的距离;
智能体动作a为一个连续的正实数,范围为0-M,M可根据航线长度调整;
奖励值r设置为:r=-h;
观测状态s定义为:
s=[u,v,cos(ψ),sin(ψ),w,h,cos(αk),sin(αk),cos(αk-ψ),sin(αk-ψ)];
步骤S2中所述基于强化学习模型的基本框架中:
(a).Actor当前网络μ(s|θμ):负责Actor当前网络参数θμ迭代更新,负责根据当前状态s选择当前动作a,用于和环境交互生成下一状态和奖励值r;
(b).Actor目标网络μ′(s|θμ′):负责根据经验回放池中采样的状态选择最优动作,Actor目标网络参数θu′定期根据Actor当前网络参数θμ更新;
(c).Critic当前网络Q(s,a|θQ):负责Critic当前网络参数θQ的迭代更新,负责计算当前动作价值Q值;
(d).Critic目标网络Q′(s,a|θQ′):负责计算预测动作价值Q′值,Critic目标网络参数θQ′定期根据Critic当前网络参数θQ更新;
步骤S3中所述强化学习和视线法结合的PID控制框架,其第i步的控制量的计算公式如下:
Δi=ai
αφ,i=αk,i+tan-1(-hi/Δi)-βi
erri=αφ,i-ψi
Ii=Ii-1+KI×erri
dui=Kp×erri+Ii
其中Δi为无人艇第i步的可视距离,ai为第i步强化学习网络计算得到的动作值,αφ,i、αk,i分别是第i步无人艇期望航向和直线路径方向,ψi、βi、erri、dui分别为第i步无人艇航向、漂角、航向误差、控制量偏差,Ii、Ii-1分别为第i步、第i-1步的积分项,KI为积分控制的系数,Kp为比例控制的系数,Min、Max分别为最小控制量、最大控制量,UL、UR分别为左电机控制量、右电机控制量,U0为基础控制量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云智控产业技术研究院有限公司,未经南京云智控产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110517912.6/1.html,转载请声明来源钻瓜专利网。