[发明专利]一种基于DBQ算法的路径规划方法在审
| 申请号: | 201910809463.5 | 申请日: | 2019-08-29 |
| 公开(公告)号: | CN110389591A | 公开(公告)日: | 2019-10-29 |
| 发明(设计)人: | 徐东;陈云飞;丁戈;张子迎;孟宇龙;宫思远;潘思辰;杨旭 | 申请(专利权)人: | 哈尔滨工程大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 算法 路径规划 机器人路径规划 路径规划问题 动作选择 机器路径 强化学习 学习效率 机器人 收敛 改进 规划 学习 | ||
1.一种基于DBQ算法的路径规划方法,其特征在于,包括以下步骤:
步骤1:构建BP神经网络动作选择器;
步骤2:当前训练次数加一;初始化机器人的起始位置、目标点、Model(s,a)和Q值函数Q(s,a);其中Model(s,a)为机器人与环境的交互过程中环境估计模型;s为机器人当前的状态,即位置信息;a为机器人即将执行的动作;
步骤3:通过BP神经网络动作选择器选择动作a
步骤4:根据即将执行的动作a,计算机器人下一时刻的状态s';
步骤5:检查机器人是否进入“死区”,若进入“死区”根据ε-greedy动作选择策略选择动作;
所述的ε-greedy动作选择策略为:
步骤6:执行动作a,得到新状态s'和即时奖励r;
步骤7:更新Q值函数Q(s,a)和环境模型Model(s,a);
步骤8:利用环境模型得到模型样本,利用模型样本H更新Q值函数,此过程进行N次;
步骤9:若未与障碍物发生碰撞且未到达目标点,则返回步骤3进行下一次路径规划;若与障碍物发生碰撞或已到达终点,此时若未达到最大训练次数或未得到最优策略,则返回步骤2进行下一次训练。
2.根据权利要求1所述的一种基于DBQ算法的路径规划方法,其特征在于:所述的步骤1中构建BP神经网络动作选择器的方法具体为:
步骤2.1:从环境信息与定义的智能体运动规则中提取出特征向量,作为网络的输入Y(n)与输出d(n);
步骤2.2:设计网络的结构,确定BP神经网络各层神经元个数;
步骤2.3:用非零随机值设置权重ωmi和ωin的值;
步骤2.4:计算BP神经网络的误差;
步骤2.5:调整输出层与隐含层之间的权重ωin,计算误差对ωin的梯度再沿着该方向反向进行调整:
其中η为学习率;.
步骤2.6:将误差信号向前传播,调整输入层与隐含层之间连接权值,BP神经网络的一次迭代调整结束;
步骤2.7:BP神经网络通过n次迭代最终收敛,得到智能体的动作选择器模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910809463.5/1.html,转载请声明来源钻瓜专利网。





