[发明专利]一种基于改进Q-learning算法的无人机航路规划方法有效
申请号: | 201910632921.2 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110488859B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 富立;李润夏;王玲玲 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 北京航智知识产权代理事务所(普通合伙) 11668 | 代理人: | 黄川;史继颖 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 learning 算法 无人机 航路 规划 方法 | ||
本发明公开了一种基于改进Q‑learning算法的无人机航路规划方法,在不同的仿真环境下训练无人机得到先验知识列表,之后在未知的环境中,利用训练得到的先验知识引导无人机进行探索,减少无人机在未知环境下的探索步数;引入单位置动作值函数收敛的准则,改变传统Q‑learning依据马尔科夫过程链式收敛的原则,加快动作值函数的收敛速度。
技术领域
本发明涉及无人机航路规划领域,尤其涉及未知环境下一种基于改进Q-learning算法的无人机航路规划方法。
背景技术
无人驾驶飞机简称无人机,是指没有飞行员操纵,并且在飞行过程中可以由其机载设备进行导航和控制,也可以由地面远程操作的飞行器。由于无人机不需要飞行员驾驶,可以避免飞行员的生理限制,并且能够保证工作人员的安全。与有人驾驶飞机相比,无人机体积小、成本低、安全性高、隐蔽性好。与像卫星这样的传统工作载体相比,无人机综合成本低,效费比高,在使用中具有灵活机动的特点。所以各国都在积极的扩展无人机的应用范围,在电力、通信、气象、农林、海洋、勘探等领域应用无人机的技术效果和经济效果都非常看好。
而伴随着应用领域的拓展,无人机需完成的任务日趋复杂,这对无人机自主性或者智能性提出了更高的要求。无人机技术是现代科学理论和实践综合交叉的成果,而无人机的自主航路规划问题是提高无人机自主性的关键核心技术。航路规划是指无人机在特定约束条件下(比如飞行时间、燃料消耗、威胁、飞机本身机动性能等)搜索一条从起始状态到目标状态,并且在中途不能发生碰撞的最优或者次优的航路,以保证飞行任务的圆满完成。
从根本上来说,无人机的航路规划问题实际上是在满足一定约束条件下的优化问题,其算法设计过程具有复杂性、随机性、多目标性和多约束性等特点。而无人机本质上是一种可以在三维空间自由运动的机器人,但是比机器人更为复杂的是不确定性更强。国内外许多专家对无人机的航路规划提出了很多的算法,比如常用的有Dijkstra算法、A*算法、遗传算法、蚁群算法、人工势场法、粒子群算法等等。以上算法可以分为全局规划算法以及局部规划算法两种。像蚁群算法这样的全局航路规划算法对于无人机飞行环境的先验信息要求很大,在未知的环境中难以展开规划,但是无人机飞行任务越来越复杂,无人机建立先验环境的成本越来越高。而像人工势场法这样的局部航路规划算法虽然不需要环境的先验信息,可以在未知的环境中规划航路,但是由于没有全局信息,很容易陷入局部极值,难以在复杂的环境中安全高效的开展航路规划。现代飞行任务的复杂性决定了上述航路规划算法的局限性,所以,目前无人机系统航路规划自主性提升的研究热点及难点集中在未知环境下进行航路规划。
新兴的强化学习算法通过不断地试错感知环境信息,可以不断地和环境进行交互,对外界环境变化快速响应,利用强化学习进行自主航路规划,具有实时、快速的优点,开始逐渐被用来提升无人机航路规划的智能化水平。然而,强化学习归根结底是数据驱动的优化算法,较大的运算压力且需要较多的交互数据是其不可避免的缺点,以下三个问题使得基于强化学习的无人机航路规划算法难以满足实际应用的要求:
1)在大规模状态空间和动作空间下,算法对每个状态和动作进行无限次重复训练,将会导致维度灾难。
2)无人机在执行完一次动作后,所获得的回报函数值往往不是即时的,这增加了时间复杂性。
3)强化学习必须在探索和利用之间进行折中,即在已知信息下进行最优策略选择和进行进一步的探索之间进行折中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910632921.2/2.html,转载请声明来源钻瓜专利网。