[发明专利]无人直升机姿态运动有限时间收敛强化学习控制方法在审
| 申请号: | 201911197465.X | 申请日: | 2019-11-29 |
| 公开(公告)号: | CN110908281A | 公开(公告)日: | 2020-03-24 |
| 发明(设计)人: | 鲜斌;林嘉裕 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 无人 直升机 姿态 运动 有限 时间 收敛 强化 学习 控制 方法 | ||
本发明属于小型无人直升机飞行控制研究领域,为针对具有建模不确定性和未知外界扰动的小型无人直升机飞行控制问题,设计一种非线性鲁棒控制器,同时设计一种基于执行网‑评价网结构的强化学习控制器来补偿建模不确定性,实现小型无人直升机飞行姿态稳定控制。本发明采用的技术方案是,无人直升机姿态运动有限时间收敛强化学习控制方法,步骤如下:步骤1)确定无人直升机的坐标系定义;步骤2)确定无人直升机姿态动力学模型;步骤3)定义姿态角跟踪误差和系统性能指标函数;步骤4)设计评价网络;步骤5)设计执行网络;步骤6)控制律设计。本发明主要应用于小型无人直升机飞行控制。
技术领域
本发明属于小型无人直升机飞行控制研究领域。针对小型无人直升机精确建模以及抵抗未知外界风扰的需求,设计一套基于强化学习与鲁棒控制相结合的非线性控制算法。
背景技术
近年来,小型无人直升机凭借垂直起降能力、空中悬停能力以及具有灵活飞行的特点被视为工业级无人机的重要发展方向。然而,直升机具有非线性、强动态耦合以及其生成推力的空气动力学特性存在的参数和模型不确定性,难以建立精确的动力学模型,使得其控制设计极具挑战性。
线性控制算法是工程上常用的无人直升机控制方法,如PID控制、线性二次型调节器(Linear Quadratic Regulator,LQR)以及H∞控制等。然而,线性控制方法大多基于线性化模型来设计,只能稳定于平衡点附近,且处理系统模型不确定性的能力有限。由此,研究人员开展了大量非线性控制算法的研究。南开大学方勇纯等人通过设计自适应反步控制器实现了无人直升机的姿态和高度控制(期刊:控制理论与应用;著者:孙秀云,方勇纯,孙宁;出版年月:2012;文章题目:小型无人直升机的姿态与高度自适应反步控制;页码:381-388)。滑模控制作为一种鲁棒控制算法常用于抑制系统外部扰动,但该方法设计控制律时包含符号函数,会使系统产生抖振现象。而super twisting控制由于具备有限时间收敛的特性,且因其切换控制部分隐藏在滑模变量的导数中,能够抑制抖振现象,经常被应用于无人直升机的控制设计中。
针对直升机难以获取精确动力学模型的问题,强化学习等智能控制方法得到了广泛应用。斯坦福大学Andrew Ng基于PEGASUS(Policy Evaluation-of-Goodness AndSearch Using Scenarios)的强化学习策略搜索算法,通过飞行数据不断塑造和修正回报函数来优化策略,最终学习到一个随机的直升机非线性动态模型,并基于学到的模型,实现了小型无人直升机倒飞、倒立悬停、翻滚等高难度特技飞行动作(会议:Proceedings ofthe Sixteenth conference on Uncertainty in artificial intelligence;著者:Ng AY,Jordan M;出版年月:2000;文章题目:PEGASUS:A policy search method for largeMDPs and POMDPs;页码:406-415)。苏黎世联邦理工学院Jemin Hwangbo等人基于确定性策略搜索的强化学习方法,使用零偏差、零方差样本离线训练两个神经网络,实现四旋翼无人机的自主悬停控制,但以上方法缺乏严格的稳定性证明。强化学习只需模型较少的先验信息或不需要模型先验信息,因而受到控制领域众多学者的关注,强化学习强调智能体在与环境的交互过程中在线地进行学习,通过每次动作后环境的回报来修正自身行动策略,从而实现最优化决策。众所周知,动态规划(Dynamic Programming,DP)是解决最优控制问题的有效方法。但此方法常用于离线训练,并且在系统复杂时容易引发“维数灾难”的问题。为应用DP方法,研究人员提出了基于AC结构的自适应动态规划(Adaptive DynamicProgramming,ADP)方法,以在线获得系统的近似最优控制策略。然而对于实际系统,外界干扰总是存在的,单纯的使用ADP方法很难克服外界扰动的影响。因此,上述考虑因素促使智能控制与非线性控制的相结合。密苏里科技大学David Nodland等人采取了神经网络与反步法相结合的方法,通过仿真验证了所提出的轨迹跟踪控制设计的有效性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911197465.X/2.html,转载请声明来源钻瓜专利网。





