[发明专利]一种基于强化学习和视线法的无人艇路径跟踪方法有效

申请号：	202110517912.6	申请日：	2021-05-12
公开（公告）号：	CN113110504B	公开（公告）日：	2022-11-22
发明（设计）人：	董璐;熊国虹;刘剑;王远大	申请（专利权）人：	南京云智控产业技术研究院有限公司
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	南京众联专利代理有限公司 32206	代理人：	许小莉
地址：	210042 江苏省南京市玄武区***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习视线无人路径跟踪方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习和视线法的无人艇路径跟踪方法，其特征在于，该方法包括如下步骤：

S1.搭建仿真模型并定义无人艇运动参数，利用软件vrep和gazebo搭建无人艇仿真环境，或者根据无人艇实际运动数据对它的运动模型进行拟合从而获得仿真模型；

S2.设计基于强化学习模型的基本框架，拟采用双层全连接神经网络作为Actor当前网络μ(s|θ^μ)、Actor目标网络μ′(s|θ^μ′)、Critic当前网络Q(s，a|θ^Q)、Critic目标网络Q′(s，a|θ^Q′)基本结构，激活函数采用Leaky-ReLU；

S3.设计强化学习和视线法结合的PID控制框架；

S4.对步骤S3中设计好的模型进行训练并保存训练参数；

S5.对于同样的初始状态做对比仿真实验、实艇实验；

步骤S1中所述无人艇运动参数定义为：

无人艇运动速度V、x轴速度u、y轴速度v、航向角ψ、角速度w、无人艇与目标航线的垂直距离h、目标航线的倾斜角度α_k，航向角与目标航线倾角的偏差为α_k-ψ，α_φ为无人艇期望航向，β为漂角且β＝tan^-1(v/u)，Δ为无人艇的可视距离，是无人水面艇在路径上的投影点T与导航点(x_LOS，y_LOS)之间的距离；

智能体动作a为一个连续的正实数，范围为0-M，M可根据航线长度调整；

奖励值r设置为：r＝-h；

观测状态s定义为：

s＝[u，v，cos(ψ)，sin(ψ)，w，h，cos(α_k)，sin(α_k)，cos(α_k-ψ)，sin(α_k-ψ)]；

步骤S2中所述基于强化学习模型的基本框架中：

(a).Actor当前网络μ(s|θ^μ)：负责Actor当前网络参数θ^μ迭代更新，负责根据当前状态s选择当前动作a，用于和环境交互生成下一状态和奖励值r；

(b).Actor目标网络μ′(s|θ^μ′)：负责根据经验回放池中采样的状态选择最优动作，Actor目标网络参数θ^u′定期根据Actor当前网络参数θ^μ更新；

(c).Critic当前网络Q(s，a|θ^Q)：负责Critic当前网络参数θ^Q的迭代更新，负责计算当前动作价值Q值；

(d).Critic目标网络Q′(s，a|θ^Q′)：负责计算预测动作价值Q′值，Critic目标网络参数θ^Q′定期根据Critic当前网络参数θ^Q更新；

步骤S3中所述强化学习和视线法结合的PID控制框架，其第i步的控制量的计算公式如下：

Δ_i＝a_i

α_φ，i＝α_k，i+tan^-1(-h_i/Δ_i)-β_i

err_i＝α_φ，i-ψ_i

I_i＝I_i-1+K_I×err_i

du_i＝K_p×err_i+I_i

其中Δ_i为无人艇第i步的可视距离，a_i为第i步强化学习网络计算得到的动作值，α_φ，i、α_k，i分别是第i步无人艇期望航向和直线路径方向，ψ_i、β_i、err_i、du_i分别为第i步无人艇航向、漂角、航向误差、控制量偏差，I_i、I_i-1分别为第i步、第i-1步的积分项，K_I为积分控制的系数，K_p为比例控制的系数，Min、Max分别为最小控制量、最大控制量，U_L、U_R分别为左电机控制量、右电机控制量，U₀为基础控制量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京云智控产业技术研究院有限公司，未经南京云智控产业技术研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110517912.6/1.html，转载请声明来源钻瓜专利网。

上一篇：基于图形与数据互驱的抽采钻孔全过程管控方法及系统
下一篇：一种发电机恒速控制设备及方法

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习和视线法的无人艇路径跟踪方法有效

专利文献下载