[发明专利]一种基于深度强化学习多AGV避障与路径规划方法及系统有效
申请号: | 202011641338.7 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112835333B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 李海生;孙宇;李楠;曹健;吴晓群 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G05B19/418 | 分类号: | G05B19/418 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 agv 路径 规划 方法 系统 | ||
1.一种基于深度强化学习多AGV避障与路径规划方法,其特征在于,包括:
步骤S1:每个AGV进行数据采集以及预处理,得到输入图片;
步骤S2:将所述输入图片输入避障神经网络并进行训练,得到障碍物特征图,其中,所述避障神经网络包含:至少一层的不同卷积核和步长的卷积层,ReLU激活函数以及池化层,以获取所述AGV周围环境的障碍物特征图;
步骤S3:将每个所述AGV的所述障碍物特征图,输入路径规划决策模型,得到每个所述AGV的路径规划策略;其中,所述路径规划决策模型根据每个AGV的障碍物特征图和其当前所处状态,通过随机策略选择动作,并根据所述动作的执行结果计算收益,直到所述AGV达到目标点或发生碰撞时,计算此刻使得累计收益达到最大时对应的路径,即为该AGV的路径规划策略;
步骤S4:每个所述AGV通过Actor收集所述路径规划策略,并存入缓存池,当所述路径规划策略数目大于阈值时,开始策略学习,并根据其当前的状态-动作对更新对应的路径规划策略;每个AGV根据中央控制器所获取的所有AGV的状态-动作对,以获取全局路径规划策略,更新其动作值函数参数,并根据所述全局路径规划策略更新每个AGV的所述路径规划策略,以获得最优的所述全局路径规划策略。
2.根据权利要求1所述的基于深度强化学习多AGV避障与路径规划方法,其特征在于,所述步骤S2:将所述输入图片输入避障神经网络并进行训练,得到障碍物特征图,其中,所述避障神经网络包含:至少一层的不同卷积核和步长的卷积层,ReLU激活函数以及池化层,以获取所述AGV周围环境的障碍物特征图,包括:
步骤S21:将所述输入图片输入避障神经网络,进行如下述公式(1)所示的至少一层的卷积操作,输出特征图;
yijk=(Wi*x)jk+bi (1)
其中,yijk表示第i个所述特征图坐标(j,k)处的像素值,Wi为第i个卷积核,x是输入,bi是偏置向量的第i个元素,它对应于第i个卷积核;
步骤S22:使用线性整流函数ReLU对所述特征图,进行非线性激活;
步骤S23:采用池化操作,获取所述障碍物特征图。
3.根据权利要求1所述的基于深度强化学习多AGV避障与路径规划方法,其特征在于,所述步骤S3:将所述障碍物特征图,输入路径规划决策模型,得到所述每个AGV 的路径规划策略,其中,所述路径规划决策模型根据每个AGV的障碍物特征图和其当前所处状态,通过随机策略选择动作,并根据所述动作的执行结果计算收益,直到所述AGV达到目标点或发生碰撞时,计算此刻使得累计收益达到最大时对应的路径,即为该AGV的路径规划策略,包括:
步骤S31:对每个AGV构建一个七元组(S,A,P,R,Ω,O,γ);
其中,S是AGV的状态;A是一组有限动作集A=(a1,…,ai,…an);P是状态转移矩阵;R是收益函数,R(s,a)表示在状态s执行动作a带来的收益;Ω是条件观察概率;O=(o)是一组观察结果集;γ是折扣因子;
步骤S32:AGV根据所述障碍物特征图和其当前所处状态,通过随机策略选择动作,并根据所述动作的执行结果计算收益R;
步骤S33:重复步骤S32,直到AGV达到目标点或发生碰撞,计算使得累计收益函数的值达到最大的路径,即为该AGV的路径规划策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011641338.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能电子锁防盗系统及方法
- 下一篇:异型现浇混凝土花槽防撞护栏施工方法