[发明专利]一种基于强化学习和视线法的无人艇路径跟踪方法有效
申请号: | 202110517912.6 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113110504B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 董璐;熊国虹;刘剑;王远大 | 申请(专利权)人: | 南京云智控产业技术研究院有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
地址: | 210042 江苏省南京市玄武区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 视线 无人 路径 跟踪 方法 | ||
本发明公开了一种基于强化学习和视线法的无人艇路径跟踪方法,拟采用DDPG对可视距离进行合理的预测,让无人艇“学会”根据当前状态动态地调整可视距离。包括如下步骤:S1.搭建无人艇仿真模型,定义无人艇运动参数;S2.设计基于强化学习基本框架对可视距离进行预测,拟采用双层全连接神经网络作为DDPG四个子网络的基本结构,激活函数采用Leaky‑ReLU;S3.设计强化学习和视线法结合的PID控制框架;S4.对步骤S3中设计好的模型进行训练并保存训练参数。S5.对于同样的初始状态做对比仿真实验、实艇实验。本发明的方法使得船舶在航行过程中获得更高精度、更快速的航迹跟踪。
技术领域
本发明属于无人艇路径跟踪控制技术领域,具体涉及一种基于强化学习和视线法的无人艇路径跟踪方法。
背景技术
强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process,MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用,形成深度强化学习。
视线法的导航原理体现在它对舵手操舵和船舶运动的直观理解上。该原理认为:如果使被控船舶的航向保持对准视线角(LOS角),那么经过适当的控制,就能使被控船舶到达期望的位置,达到航迹跟踪的效果。而且LOS算法能将传统的控制量从3个自由度的船舶位置和航向角减少到2个自由度的船舶航向角和航行速度,这种特性对于欠驱动船舶的控制尤为重要。视距导航的控制方法就是通过在目标路径上选取合适的导航点,引导无人水面艇跟踪目标导航点,最终使无人水面艇沿着目标路径航行。
在工程实际中,应用最为广泛的调节器控制规律为比例、积分、微分控制,简称PID控制,又称PID调节。PID控制器问世至今已有近70年历史,它以其结构简单、稳定性好、工作可靠、调整方便而成为工业控制的主要技术之一。当被控对象的结构和参数不能完全掌握,或得不到精确的数学模型时,控制理论的其它技术难以采用时,系统控制器的结构和参数必须依靠经验和现场调试来确定,这时应用PID控制技术最为方便。比例控制是一种最简单的控制方式。其控制器的输出与输入误差信号成比例关系。当仅有比例控制时系统输出存在稳态误差(Steady-state error)。在积分控制中,控制器的输出与输入误差信号的积分成正比关系。对一个自动控制系统,如果在进入稳态后存在稳态误差,则称这个控制系统是有稳态误差的或简称有差系统(System with Steady-state Error)。为了消除稳态误差,在控制器中必须引入“积分项”。积分项对误差取决于时间的积分,随着时间的增加,积分项会增大。这样,即便误差很小,积分项也会随着时间的增加而加大,它推动控制器的输出增大使稳态误差进一步减小,直到接近于零。因此,比例+积分(PI)控制器,可以使系统在进入稳态后几乎无稳态误差。在微分控制中,控制器的输出与输入误差信号的微分(即误差的变化率)成正比关系。自动控制系统在克服误差的调节过程中可能会出现振荡甚至失稳。其原因是由于存在有较大惯性组件(环节)或有滞后(delay)组件,具有抑制误差的作用,其变化总是落后于误差的变化。解决的办法是使抑制误差的作用的变化“超前”,即在误差接近零时,抑制误差的作用就应该是零。这就是说,在控制器中仅引入“比例”项往往是不够的,比例项的作用仅是放大误差的幅值,而需要增加的是“微分项”,它能预测误差变化的趋势,这样,具有比例+微分的控制器,就能够提前使抑制误差的控制作用等于零,甚至为负值,从而避免了被控量的严重超调。所以对有较大惯性或滞后的被控对象,比例+微分(PD)控制器能改善系统在调节过程中的动态特性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云智控产业技术研究院有限公司,未经南京云智控产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110517912.6/2.html,转载请声明来源钻瓜专利网。