[发明专利]一种基于Dyna框架的混合智能路径规划方法及装置在审
申请号: | 202110353938.1 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113074738A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 周春辉;王理征;朱曼;文元桥;黄亚敏;陶威 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G01C21/20 | 分类号: | G01C21/20;G06N20/20 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 赵泽夏 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dyna 框架 混合 智能 路径 规划 方法 装置 | ||
本发明涉及一种基于Dyna框架的混合智能路径规划方法,包括:S1、根据马尔科夫决策过程构建决策模型;S2、采用栅格法对船舶航行环境建立环境模型,确定初始位置及目标位置;S3、根据船舶当前位置及目标位置,采用Dyna‑H算法对所述决策模型进行更新,对船舶当前可能的动作分别进行评估,确定当前最优动作;S4、执行当前最优动作a,并重复S3直到到达目标位置,生成最优路径。本发明提供的基于Dyna框架的混合智能路径规划方法,既在局部避障上保留了栅格法带来的航行的高自由度,又确保了路线规划始终趋向于最短,有利于提高船舶的运输效率与经济效益。
技术领域
本发明涉及船舶控制与决策技术领域,特别是涉及一种基于Dyna框架的混合智能路径规划方法及装置。
背景技术
有效的路径规划是支持保障智能航行器自主安全航行的核心关键技术之一。但当面对存在未知障碍物等不确定性影响时,路径规划则成为一项复杂并具较大挑战的任务。目前,研究与应用较多的包括传统算法、启发式算法和机器学习等。传统算法如可视图法、人工势场法等缺乏灵活性,易于陷入局部最优值。启发式算法是相对于最优化算法提出的,是一种搜索式算法,在离散路径拓扑结构中得到了很好的应用。以上两类算法都是基于样本的监督学习算法,即算法需要完备的环境信息。因此,在未知环境(即系统中没有新环境的先验信息)环境采用这两类算法智能航行器很难有效地进行路径规划。
强化学习算法是由美国学者Minsky在1954年提出的。目前常用的强化学习算法包括Q-Learning,Sarsa,TD和自适应动态规划算法等。通过智能体与环境进行大量的交互,经过不断试错获取未知环境的信息反馈,从而优化路径规划策略。该类学习算法不依赖模型和环境的先验信息,是一种自主学习和在线学习算法,具有较强的不确定环境自适应能力,可以借助相应传感器感知障碍物信息进行实时在线路径规划。基于Q-Learning的路径规划方法,将强化学习应用于路径规划领域,利用强化学习具有自主决策的特点来选择策略最终完成自主避障和路径规划。然而,传统的Q-Learning存在学习效率低、收敛速度慢等缺点。
发明内容
本发明的目的是针对克服现有技术中传统的Q-Learning存在学习效率低、收敛速度慢等缺点的问题,提供一种基于Dyna框架的混合智能路径规划方法。
本发明采用的技术方案为:一种基于Dyna框架的混合智能路径规划方法,包括以下步骤:
S1、根据马尔科夫决策过程构建决策模型;
S2、采用栅格法对船舶航行环境建立环境模型,确定初始位置及目标位置;
S3、根据船舶当前位置及目标位置,采用Dyna-H算法对所述决策模型进行更新,并根据船舶当前位置及目标位置及决策模型对船舶当前可能的动作a分别进行评估,确定当前最优动作;
S4、执行当前最优动作,并重复S3直到到达目标位置,生成最优路径。
进一步的,步骤S1具体包括:
马尔可夫决策由(S,A,r,Psa)组成,其中,S={s1,s2,L,st}是状态空间,A={a1,a2,L,at}是动作空间,at∈A表示在t时刻执行的动作,r是奖励函数,Psa是状态转移函数,它满足马尔可夫属性:Psa(st+1|s1,a1,L,st,at)=Psa(st+1|st,at);st表示在t时刻的状态,at表示在t时刻的动作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110353938.1/2.html,转载请声明来源钻瓜专利网。