[发明专利]一种对向双车道下基于强化学习的自动驾驶超车决策方法有效

申请号：	201911173951.8	申请日：	2019-11-26
公开（公告）号：	CN110969848B	公开（公告）日：	2022-06-17
发明（设计）人：	裴晓飞;莫烁杰;徐杰;杨波	申请（专利权）人：	武汉理工大学
主分类号：	G08G1/01	分类号：	G08G1/01;G08G1/16;G06N3/04;G06N3/08
代理公司：	湖北武汉永嘉专利代理有限公司 42102	代理人：	乐综胜
地址：	430070 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种车道基于强化学习自动驾驶超车决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种对向双车道下基于强化学习的自动驾驶超车决策方法，其特征在于，包括以下步骤：

1)通过传感器采集自动驾驶车辆的交通状态s；

2)将采集到的交通状态s输入到经过训练的决策模型中；

3)决策模型依据输入信息从其动作空间中选择相应的驾驶动作a指令并输出，经本次驾驶动作a后自动驾驶车辆形成新的交通状态s’；

4)通过奖励函数计算本次驾驶动作的奖励值r，并将原交通状态s、驾驶动作a、奖励值r和新的交通状态s’作为转移样本(s，a，r，s’)存入经验回放池中；

5)计算决策模型的损失函数值，并依据转移样本和损失函数值优化决策模型参数；

6)重复步骤1)～5)，直至自动驾驶结束；

在所述的步骤3)中，动作空间中包括多个驾驶动作指令，分别为换道指令、匀速指令、避撞指令、减速指令和加速指令；

决策模型包括两个深度神经网络，分别为主神经网络和目标神经网络，主神经网络用于选择驾驶动作指令，目标神经网络用于评估驾驶动作指令；

所述的步骤5)中，损失函数为

其中，y为主神经网络和目标神经网络的时间差分误差，s为交通状态，a^*为主神经网络选择的驾驶动作指令，主神经网络参数θ，Q函数即为Q(s,a^*)简称为Q函数，是驾驶动作值函数，代表在交通状态s下，采用a^*这个驾驶动作后的期望奖励，这个值越大，说明在该交通状态s下采取该驾驶动作奖励越大；Q(s,a^*,θ)是指参数为θ的神经网络产生的近似Q函数；

主网络和目标网络的时间差分误差

y＝r+γmaxQ(s′,a^*；θ^-)

其中，r为本次驾驶动作的奖励值r，θ^-＝为目标神经网络参数，γ为折扣因子；s’为下一交通状态；xQ(s′,a^*；θ^-)是利用参数为θ^-的目标神经网络近似逼近的Q函数，用来计算下一状态s’下采用动作a^*的近似Q函数值；

在所述的步骤4)中，奖励函数包括四个相关项，分别是目标相关项，安全相关项，速度相关项和碰撞相关项，其中，目标相关项在超车成功时给予较大的奖励；安全相关项在车辆处于对向车道时会给予负的奖励，从而避免出现车辆长时间占据对向车道的情况；速度相关项用于实现更快的超车；碰撞相关项是基于碰撞时间余量(TTC)的分段函数，碰撞时间余量(TTC)越小奖励越小；

结合上述的强化学习的超车决策和传统的基于规则的决策方法，形成了双模式决策融合系统；基于规则的决策方法采用有限状态机法，根据实际感知传感器输入的状态量和经验设定好的门限值进行比较，在五种动作指令间(换道、匀速、避撞、减速和加速)展开切换；通过基于规则的决策方法对强化学习DDQN的决策结果进行校验；如果两者结果相同，则直接将动作指令传给后面的规划控制层；如果两者结果不同，则在以下三种情况下优先选择基于规则的决策结果，包括：感知信息超出了训练数据的范围以外，实际感知信息缺失，和强化学习作出的结果违反了交通规则。

2.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法，其特征在于，所述的步骤2)，训练决策模型的具体过程包括以下步骤：

S1对决策模型进行离线仿真训练；

S2利用离线训练好的决策模型进行实车推理决策。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉理工大学，未经武汉理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911173951.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种对向双车道下基于强化学习的自动驾驶超车决策方法有效

专利文献下载