[发明专利]一种陆空两栖无人车自动模态切换与地面避障的训练方法在审
| 申请号: | 202211119587.9 | 申请日: | 2022-09-14 |
| 公开(公告)号: | CN115718485A | 公开(公告)日: | 2023-02-28 |
| 发明(设计)人: | 张新钰;刘华平;黄健耕;黄康尧;吴新刚;邓富强 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
| 地址: | 100084*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 陆空 两栖 无人 自动 切换 地面 训练 方法 | ||
1.一种陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述方法包括:
步骤1)基于Gazebo仿真器构建包括路空两栖无人车、障碍物锥筒和墙体的训练场景;
步骤2)基于机器学习强化学习原理,将路空两栖无人车在训练场景中获取的当前时刻感知信息输入决策神经网络,采用∈贪婪方法与好奇心驱动方法相结合的策略规划行进轨迹并判断是否需要切换运动模态,将动作指令传入Gazebo仿真器,指挥Gazebo仿真器中的路空两栖无人车运动;
步骤3)将每一步的运动相关数据存入经验池,基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化;转至步骤2),直至路空两栖无人车触发终止条件或满足预设的训练步长,则终止一个训练周期;
步骤4)当未达到预设的训练周期总数,转至步骤1)开始一个新的训练周期,否则得到训练好的决策神经网络。
2.根据权利要求1所述的陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述步骤1)包括:
随机生成若干个障碍物锥筒,其随机分布于设定长宽尺寸的墙体长方形区域内;
设定陆空两栖无人车运动的固定起点和固定终点;
设定陆空两栖无人车的运动范围不可超出墙体长方形区域,行进过程中,可自由切换飞行和地面行驶两种运动模态,当与障碍物锥筒或墙体发生碰撞则判定失败。
3.根据权利要求2所述的陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述陆空两栖无人车的运动动作包括七种有效动作,在地面行驶模态下,动作[0,1,2,3,4,5]为有效动作,在飞行模态下,动作[5,6]为有效动作,其中,
动作[0]为按设定的轮转线速度直行;
动作[1]包括设定的轮转线速度,轮转角速度为第一轮转速度,方向向右;
动作[2]包括设定的轮转线速度,轮转角速度为第二轮转速度,方向向右;
动作[3]包括设定的轮转线速度,轮转角速度为第一轮转速度,方向向左;
动作[4]包括设定的轮转线速度,轮转角速度为第二轮转速度,方向向左;
动作[5]为旋翼转动提供起飞或前向飞行所需升力;
动作[6]为旋翼转速减慢,无人车稳定降落。
4.根据权利要求2所述的陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述路空两栖无人车设置激光雷达和高度计,用于在训练场景中获取包括二维图像和高度信息的感知信息。
5.根据权利要求4所述的陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述决策神经网络为DDQN网络,输入为二维图像和高度信息,输出为动作价值函数Q值,所述决策神经网络包括三层卷积神经网络、两个并联的四层全连接层以及加和函数;具体处理过程包括:
三层卷积神经网络对输入的二维图像进行图像信息处理,将卷积神经网络的输出堆积成为一维向量后,分两路分别与高度信息进行向量的拼接后,作为两个全连接层的输入,经过四层全连接层,再经过加和函数输出相应的动作价值函数Q值:Q(st,at;θt),其中,
st为t时刻陆空两栖无人车的状态值,at为t时刻陆空两栖无人车的运动动作,θt为当前决策神经网络的参数。
6.根据权利要求5所述的陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述步骤2)的∈贪婪方法包括:
对动作价值函数Q值进行范围为(0,1)之间的均匀抽样,如果抽样数值小于设定的epsilon数值,以随机抽样方式选择动作,如果抽样数值大于设定的epsilon数值,则选择动作概率分布中最大概率对应的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211119587.9/1.html,转载请声明来源钻瓜专利网。





