[发明专利]一种基于DBQ算法的路径规划方法在审
| 申请号: | 201910809463.5 | 申请日: | 2019-08-29 |
| 公开(公告)号: | CN110389591A | 公开(公告)日: | 2019-10-29 |
| 发明(设计)人: | 徐东;陈云飞;丁戈;张子迎;孟宇龙;宫思远;潘思辰;杨旭 | 申请(专利权)人: | 哈尔滨工程大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明属于机器人路径规划领域,具体涉及一种基于DBQ算法的路径规划方法。本发明所提出的路径规划方法通过对强化学习Dyna‑Q算法中的动作选择机制进行改进主要解决三个路径规划问题:其一,解决机器人在这种环境中学习的早期阶段学习效率低的问题;其二,提高了机器路径规划的精度;其三,加快了算法的收敛速度。 | ||
| 搜索关键词: | 算法 路径规划 机器人路径规划 路径规划问题 动作选择 机器路径 强化学习 学习效率 机器人 收敛 改进 规划 学习 | ||
【主权项】:
1.一种基于DBQ算法的路径规划方法,其特征在于,包括以下步骤:步骤1:构建BP神经网络动作选择器;步骤2:当前训练次数加一;初始化机器人的起始位置、目标点、Model(s,a)和Q值函数Q(s,a);其中Model(s,a)为机器人与环境的交互过程中环境估计模型;s为机器人当前的状态,即位置信息;a为机器人即将执行的动作;步骤3:通过BP神经网络动作选择器选择动作a步骤4:根据即将执行的动作a,计算机器人下一时刻的状态s';步骤5:检查机器人是否进入“死区”,若进入“死区”根据ε‑greedy动作选择策略选择动作;所述的ε‑greedy动作选择策略为:
步骤6:执行动作a,得到新状态s'和即时奖励r;步骤7:更新Q值函数Q(s,a)和环境模型Model(s,a);步骤8:利用环境模型得到模型样本,利用模型样本H更新Q值函数,此过程进行N次;步骤9:若未与障碍物发生碰撞且未到达目标点,则返回步骤3进行下一次路径规划;若与障碍物发生碰撞或已到达终点,此时若未达到最大训练次数或未得到最优策略,则返回步骤2进行下一次训练。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910809463.5/,转载请声明来源钻瓜专利网。





