[发明专利]一种改进的Dyna-Q学习路径规划算法在审
申请号: | 202110278598.0 | 申请日: | 2021-03-16 |
公开(公告)号: | CN112964272A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 石振;王保华;王科银;张建辉 | 申请(专利权)人: | 湖北汽车工业学院 |
主分类号: | G01C21/34 | 分类号: | G01C21/34 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 张贵宾 |
地址: | 442002 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 dyna 学习 路径 规划 算法 | ||
本发明将基于模型的算法和模型无关的算法相结合的Dyna框架结合Q‑learning算法应用于移动机器人路径规划,同时为了加快算法的收敛,在Q值初始化时引入人工势场法初始化Q值,仿真实验表明,加入规划后的算法收敛前的运行幕数会大大减少,并且规划步数越大算法收敛前运行幕数越少,但是加入规划会增加算法的时间复杂度;改进的Dyna‑Q学习算法加快了算法的收敛速度,能够高效的完成移动机器人在未知环境中的路径规划问题。
技术领域
本发明涉及机器人路径规划技术领域,具体涉及一种改进的Dyna-Q学习路径规划算法。
背景技术
路径规划技术可以引导移动机器人从起始位置避开障碍物到达目标位置,是实现移动机器人自主导航的关键。根据对环境信息的掌握程度不同,路径规划分为全局路径规划和局部路径规划。全局路径规划是在已知的环境中规划出移动机器人的运动路径,常用的全局路径规划算法有可视图、格栅法、拓扑法等;而局部路径规划的环境信息未知或者是部分已知,比较广泛应用的算法有神经网络法、人工势场法、强化学习算法等。在众多的路径规划算法中,强化学习算法因其无需对环境进行建模而得到广泛的应用。
强化学习算法主要通过智能体不断与环境交互获得外部环境信息实现多步决策问题的优化求解。根据是否已知环境模型强化学习可分为有模型强化学习和无模型强化学习。
Q-learning是一种典型的无模型强化学习算法。Q-learning算法通过构建Q表存储状态动作值,智能体在与环境交互的过程中获得奖励从而更新Q值。
基于模型的强化学习算法通过智能体与环境交互来优化模型,而直接的强化学习算法通过智能体与环境交互来优化策略。Dyna学习框架结合基于模型的学习和直接学习,智能体一方面利用与环境交互的经验来优化策略,另一方面利用经验来学习模型,学习到的模型同样用来指导智能体选择动作。
人工势场模型是Khatib提出的一种虚拟力法。该方法假设移动机器人在一种虚拟力场下运动。目标点对机器人产生引力,引导机器人朝其运动,障碍物对机器人产生斥力,避免机器人与其产生碰撞,机器人在运动路径上的每一点所受的合力等于这一点的引力和斥力之和。
Dyna学习框架可以和其他的无模型强化学习算法结合。本文选择Dyna框架和Q-learning算法相结合的Dyna-Q学习应用于移动机器人路径规划中。虽然,Dyna-Q学习相较于Q-learning算法增加了规划过程,可以在一定程度上提升算法的性能,但其无法改变Q-learning算法由于把Q值初始化为0或者是随机数而导致的算法初期搜索的盲目性,从而导致算法初期产生大量的无效迭代。为了解决Q-learning算法的上述不足,引入人工势场法对算法进行改进。
发明内容
针对现有技术中关于Dyna框架和Q-learning算法相结合中存在的不足,本发明特提供一种改进的Dyna-Q学习路径规划算法。
一种改进的Dyna-Q学习路径规划算法,包括以下步骤:
1. 输入环境信息:起始位置和目标位置;
2. 设置参数ɑ、γ、ε、ζ,初始化模型M(s,a);
3. 初始化Q表;
4. 循环;
5. 初始化状态S;
6. 采用ε-贪婪策略选择动作A;
7. 执行所选动作到达下一状态S’并获得相应奖励R;
8. 更新Q值;
9. 用R和S’更新模型M(s,a);
10.n次模拟;
11. 每次模拟都随机选择一个之前出现过的状态S以及该状态下的动作A;
12. 基于模型M(S,A)得到奖励R和下一状态S’;
13.再次更新Q值;
14. 达到一定步数或一定收敛条件,终止;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北汽车工业学院,未经湖北汽车工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110278598.0/2.html,转载请声明来源钻瓜专利网。