[发明专利]一种基于深度Double-Q网络的Nao机器人路径规划方法在审
| 申请号: | 202111118389.6 | 申请日: | 2021-09-23 |
| 公开(公告)号: | CN113867345A | 公开(公告)日: | 2021-12-31 |
| 发明(设计)人: | 赵佳玮;张利军 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 double 网络 nao 机器人 路径 规划 方法 | ||
1.一种基于深度Double-Q网络的Nao机器人路径规划方法,其特征在于步骤如下:
步骤1、虚拟环境信息预处理:
以Choregraphe软件中Naoqi平台作为训练Nao机器人的虚拟环境,对虚拟环境中的信息做预处理:
1、面向障碍物时,计算Nao机器人相对障碍物的夹角
其中DXrelative,DYrelative,是X,Y方向机器人与障碍物之间的相对距离,再计算反正切函数即可得到相对夹角;
2、根据偏航角和相对距离,对偏航角进行划分,推算虚拟环境的超声波信息:
其中Sonar_info为推算声纳信息;left为左侧声纳推算,right为右侧声纳推算距离;Dr为虚拟环境中Nao机器人与障碍物之间的距离;传感器中的脚底缓冲器在虚拟环境中设置为[0,0];
步骤2、深度Double-Q网络虚拟仿真环境实验:
设定马尔可夫模型和奖励函数:
S=[pos_xagent,pos_yagent,pos_θagent,Δx,Δy,distance,Sensor_info]
其中pos_xagent,pos_yagent,pos_θagent代表机器人的x,y坐标和偏航角;Δx,Δy代表机器人与目标点x,y方向的差值;distance为机器人与目标点之间的距离;Senor_info为机器人的一些传感器信息即胸口超声波及脚前部的缓冲器;
动作空间选取为:
Action=[forward,backward,left,right,left forward,left backward,rightforward,right backward]
其中动作空间为以45度分分割,分为8个离散动作空间即向前走、向左转45度再前进、向左转90度再前进、向左转135度再前进、向后转,向右转45度再前进、向右转90度再前进、向右转135度再前进;
奖励函数分为两部分:连续奖励指机器人运行过程中实时位置与目标点之间距离的负值;离散奖励指当越过设定的边界或者探测到障碍物距离小于设定的阈值给予惩罚,当与目标点之间的距离小于设置的阈值给予奖励;具体形式如下:
其中,当机器人的位置与目标点之间距离小于0.07则默认其成功到达设定目标点;
依据设定的马尔可夫模型和奖励函数,基于深度Double-Q网络,训练Nao机器人在虚拟环境中进行避障和路径规划,得到训练完成的深度Double-Q网络;
步骤3、模型迁移,Nao机器人实物实验:
将真实机器人获取的状态信息传入其中,利用虚拟环境训练完成的深度Double-Q网络得到Nao机器人所要采取的具体动作,验证其可行性。
2.根据权利要求1所述基于深度Double-Q网络的Nao机器人路径规划方法,其特征在于:所述深度Double-Q网络参数包含4层神经网络,第一层50个神经元,第二层100个神经元,第三层50个神经元,第四层8个神经元;其他超参数有经验缓存区大小为2000;小批量维度为256;梯度下降优化算法Adam算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111118389.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多缸式自主装卸全能多用车
- 下一篇:具有配送功能换电系统





