[发明专利]一种基于DDQN的自适应动态路径规划方法有效
| 申请号: | 201910879532.X | 申请日: | 2019-09-17 |
| 公开(公告)号: | CN110515303B | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 张建明;陈新 | 申请(专利权)人: | 余姚市浙江大学机器人研究中心;浙江大学 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04;G05B13/02;G05D1/02 |
| 代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 吴秉中 |
| 地址: | 315400 浙江省宁波市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 ddqn 自适应 动态 路径 规划 方法 | ||
1.一种基于DDQN的自适应动态路径规划方法,其特征在于,包括以下步骤:
步骤(1)根据应用场景的实际大小产生一批相同大小,具有相同终点的网格地图,再根据实际应用场景的需要在地图中布置多个障碍物,且所有地图的障碍物分布不同,这些地图组成一个训练地图库,同样的方式生成一个测试地图库;
步骤(2)根据地图大小和实际环境复杂程度生成一个神经网络,生成完全由3-5层全连接层构成的神经网络作为主网络,其输入变量个数与地图中每个网格的状态维度相同,输出层为四个神经元,分别代表上下左右四个行为,中间层的激活函数采用RELU函数,并随机初始化主网络的参数;完全复制主网络的结构和参数生成目标网络;
步骤(3)任意从训练地图库中取出一个地图,随机在地图中终点之外没有障碍物的网格生成一个代理,在代理与地图交互过程中,记录下所有交互的步骤,并利用这些交互的经历来训练主网络,直到遍历所有训练地图;
所述步骤(3)的具体过程为:
将训练地图库中的所有地图用来训练主网络,首先在每个地图上产生一个代理,每个地图训练多个回合,每个回合开始前初始化代理的位置,将其随机定义在障碍物之外的网格,每个回合具有步数上限,每一步由强化学习中的状态转移定义,其构成有s,a,r,s_,其中s是当前代理所在网格的特征表示,a是根据s和公式(1)所示策略选择的行为,r是得到的即时奖励,当代理遇到障碍物时即时奖励为-10,遇到终点时即时奖励为10,同时返回重新初始化代理的位置,其他时候即使奖励为-0.1,s_是选择a后到达的下一个网格的状态特征,每一步都会被存储到经验存储器中;
greedy=0.5+episode×0.3÷total_episode (2)
当经验存储器中存储的步骤到达目标数量之后,代理每走一步主网络训练一次,每训练多次之后将主网络的参数复制给目标网络;具体训练过程为:从经验存储器中随机选取若干个样本,每个样本都是一个完整的状态转移,将样本的s输入到主网络,根据a的值选出对应的状态行为对的Q值Q(s,a),将s_输入主网络,选出每个样本输出值最大行为a_,再将s_输入目标网络,在目标网络的输出中根据a_选出对应的Q值QT(s_,a_),再根据公式(3)所示的loss损失函数对其进行梯度下降从而更新了主网络的参数
Ui=ri+γQT(si_,argmaxa_Q(si_,a_;w);wT) (4)
代理从初始位置到达终点的整个过程在强化学习中称作完整的马尔可夫过程{s1,s2.....sT};每个完整的马尔可夫过程都有自己的累计奖励,由公式(5)所示:
训练的过程就是将每个状态行为对应的Q值不断提升的过程,再经过公式(1)定义的ε-greedy策略大概率选择Q值最大的行为,不断提高整个马尔可夫过程的累计回报;
执行完全部的回合,回到步骤(3)一直重复此过程直到遍历所有的地图使得公式(3)中的loss减小到目标范围为止;
步骤(4)训练完成之后的模型可用于测试任意没有经过训练的障碍物分布不同的测试地图,在测试地图上随机位置生成一个代理,将代理所处的当前网格的状态特征输入目标网络,根据ε-greedy策略选出最优行为,执行该行为之后代理移动到下一个状态,不断重复此步骤直到找到终点状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于余姚市浙江大学机器人研究中心;浙江大学,未经余姚市浙江大学机器人研究中心;浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910879532.X/1.html,转载请声明来源钻瓜专利网。





