[发明专利]一种基于深度强化学习的越野车三维路径规划方法在审
| 申请号: | 202211034787.4 | 申请日: | 2022-08-26 |
| 公开(公告)号: | CN115357022A | 公开(公告)日: | 2022-11-18 |
| 发明(设计)人: | 袁小芳;侯明心;黄国明;王金磊;谭伟华;王耀南 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 长沙市护航专利代理事务所(特殊普通合伙) 43220 | 代理人: | 莫晓齐 |
| 地址: | 410082 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 越野车 三维 路径 规划 方法 | ||
本发明公开了一种基于深度强化学习的越野车三维路径规划方法,构建一个基于价值的越野车三维路径规划的深度卷积神经网络模型,以最优动作价值函数为学习目标,构建随越野车移动的动态全局地图作为观测输入,设计综合考虑路程和能耗的奖励函数,根据目标距离设计深度强化学习的探索策略,最后结合探索策略和奖励函数对深度卷积神经网络模型进行端到端的训练,以使越野车从起点到终点的行驶过程中获得的奖励最大,实现越野车的三维路径规划。采用上述方法规划出的越野车三维路径,综合考虑了路程和能耗,在探索过程中可以兼顾方向性和随机性,为三维地图中的越野车规划出路程和能耗折中的节能路径。
技术领域
本发明属于路径规划领域,涉及一种基于深度强化学习的越野车三维路径规划方法,该方法可用于野外环境的越野车的路径规划。
背景技术
越野车的路径规划是野外作业的重要条件,在野外救援、野外勘探和战略物资运输等领域都有广泛应用。但是续航里程问题一直是制约越野车作业时间和作业范围的最大障碍。
有研究表明,燃油车辆在上坡时的能量消耗远大于平路上的能耗。那么,对于任何能量敏感的车辆而言,一条上坡少但稍长一点的路径,可能比覆盖大量上坡的最短路径节省很多能耗。在复杂的三维地形中,规划出一条可以权衡能耗和路程的节能路径对于提高越野车的续航里程具有积极作用。
传统的路径规划方法如A*算法通过奖励启发函数模型进行规划,在二维地图的单一目标规划任务中表现优异,但是在三维地图中,由于受地形影响,A*算法存在启发函数建模困难等问题,同时A*算法需要搜索一定数量的节点进行规划,因此,规划效率较低;RRT算法在规划时存在随机性,路径相对较粗糙。
DRL(Deep Reinforcement Learning,简称深度强化学习)在越野车领域的应用广泛,有研究表明深度强化学习具有解决复杂高维状态空间上决策问题的能力。在视频游戏方面表现优异,同时深度强化学习已经被验证在解决NP-hard问题方面具有巨大的潜力,如旅行商问题,大规模混合整数规划问题,三维地形环境中越野车的路径规划也是NP-hard问题。本发明提出了一种基于深度强化学习的越野车三维路径规划方法,为三维地形环境中行驶的越野车规划出能耗和路程折中的节能路径。
发明内容
为解决现有路径规划方法存在搜索时间长、有些规划方法搜索快但规划路径较粗糙等不足,本发明提供一种基于深度强化学习的越野车三维路径规划方法,该方法包括以下步骤:
S1、构建一个基于价值的越野车三维路径规划的深度卷积神经网络模型,以最优动作价值函数为学习目标;
S2、构建随越野车移动的动态全局地图作为观测输入;
S3、综合考虑动态全局地图中越野车的路程与能耗设计奖励函数,计算越野车在当前状态下执行动作后获得的奖励值;
S4、根据目标距离设计深度强化学习的探索策略,用于控制越野车在当前状态下执行动作的类型;
S5、结合探索策略和奖励函数对深度卷积神经网络模型进行端到端的训练,以使越野车从起点到终点的行驶过程中获得的奖励最大,实现越野车的三维路径规划。
优选地,最优动作价值函数具体为:
式中,Q*(s,a)是深度卷积神经网络模型的最优动作价值,E表示期望值,S表示越野车的状态空间,A表示越野车的动作空间,at表示越野车在t时刻的动作,st表示越野车在t时刻的状态,Ut表示越野车在t时刻的累积奖励。
优选地,步骤S1中的深度卷积神经网络的损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211034787.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:卵石层超深落底入岩的TRD施工方法
- 下一篇:一种石灰窑炉出灰装置





