[发明专利]一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法在审
| 申请号: | 202110124110.9 | 申请日: | 2021-01-29 |
| 公开(公告)号: | CN112801273A | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 蔡英凤;杨绍卿;高翔;陈龙;王海;高洪波;刘卫国;董钊志;陈军 | 申请(专利权)人: | 江苏大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/20 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 212013 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 编码器 强化 学习 自动 驾驶 控制器 训练 方法 | ||
1.一种基于变分自编码器和强化学习的自动驾驶控制器,其特征在于,包括变分自编码器和强化学习网络两部分;所述变分自编码器包括编码器和解码器;编码器的输入为带时序信息的环境状态量st,输出为潜在变量特征zt;解码器的输入为潜在变量特征zt,输出为预测的下一时刻特征;所述强化学习网络的输入为潜在变量特征zt和实时奖励rt,输出为具体的动作at。
2.根据权利要求1所述的一种基于变分自编码器和强化学习的自动驾驶控制器,其特征在于,所述实时奖励rt包括环境实时反馈的奖励r't和附加奖励B(st),具体表达式为:
rt=r't+B(st)
其中,附加奖励B(st)的表达式为:
B(st)=-γlog(p(st))
γ为比例因子,-log(p(st))为状态量的信息量,p(st)表示为状态量st的稠密程度。
3.根据权利要求1所述的一种基于变分自编码器和强化学习的自动驾驶控制器,其特征在于,所述动作at包括方向盘转角和刹车油门开度。
4.根据权利要求1所述的一种基于变分自编码器和强化学习的自动驾驶控制器,其特征在于,所述编码器包括卷积模块和循环神经网络模块,卷积模块处理第m时刻的前视摄像头图片、雷达点云图和地图,提取特征fm,卷积模块每次共处理连续四个时刻的前视摄像头图片、雷达点云图和地图,提取的特征分别为f1、f2、f3和f4,将连续的四个时刻特征处理为时序特征组,输入到循环神经网络模块;循环神经网络模块最后将带有四个时刻的特征的时序特征组进一步提取出潜在变量。
5.根据权利要求4所述的一种基于变分自编码器和强化学习的自动驾驶控制器,其特征在于,所述的卷积模块包括三层卷积层,两层池化层和三层全连接层,具体构造如下:
输入层将3个256*256*3的矩阵合并为256*256*9的矩阵;卷积层Conv1由(3*3*9)*32,步长stride=2的卷积核组成,其输入是输入层的输出,为256*256*9的矩阵,其输出为128*128*32的特征;池化层Pool1由(2*2)、步长stride=2的池化核组成,其输入是卷积层Conv1的输出,为128*128*32的特征,其输出为64*64*32的特征;卷积层Conv2由(3*3*32)*64,步长stride=2的卷积核组成,其输入是池化层Pool1的输出,为64*64*32的特征,其输出为32*32*128的特征;池化层Pool2由(2*2),步长stride=2的池化核组成,其输入是卷积层Conv2的输出,为32*32*128的特征,其输出为16*16*128的特征;卷积层Conv3由(3*3*128)*128,步长stride=2的卷积核组成,;其输入是池化层Pool2的输出,为16*16*128的特征,其输出为8*8*128的特征;全连接层FC的尺寸为(8*8*128)*512,其输入是卷积层Conv3的输出,为8*8*128的特征,其输出为1*1*512的特征f。
6.根据权利要求4所述的一种基于变分自编码器和强化学习的自动驾驶控制器,其特征在于,所述的循环神经网络模块为LSTM长短时记忆网络,输入是带有四个时刻的特征的时序特征组,为卷积模块提取的4个连续时刻1*1*512的特征f,输出为1*1*512的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110124110.9/1.html,转载请声明来源钻瓜专利网。





