[发明专利]基于强化学习的无人驾驶汽车多车道行驶的决策方法在审
| 申请号: | 201910911284.2 | 申请日: | 2019-09-25 |
| 公开(公告)号: | CN110716562A | 公开(公告)日: | 2020-01-21 |
| 发明(设计)人: | 王一松;王春燕;张自宇;徐灿 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 32237 江苏圣典律师事务所 | 代理人: | 韩天宇 |
| 地址: | 210016 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 无人驾驶汽车 多车道 强化学习 决策系统 收益函数 车辆行驶状态 强化学习算法 神经网络参数 决策 传感器采集 不确定性 车辆信息 车辆行驶 动态环境 高速行驶 驾驶行为 行驶过程 训练模型 危险度 修正 驾驶 行驶 预测 更新 安全 | ||
1.基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,其包括以下步骤:
步骤1),基于小角度假设建立车辆的动力学模型和轮胎模型,建立动力学模型时结合转向工况下轮胎的侧偏力、驱动制动力、以及轮胎侧偏角进行单个轮胎和整车的受力分析,并对前轮偏角及横摆角建立约束条件;
步骤2),对NGSIM数据库中US-101数据集的数据进行绘图分析,获取驾驶行为决策样本数据;
所述NGSIM数据库中US-101数据集的数据包括:车辆进入检测路段先后编号、开始检测时刻为起点的时间序列编号、车头中心距路段左侧边缘距离X、车头中心距路段起点距离Y、车辆瞬时速度、车辆瞬时加速度;
步骤3),构建强化学习训练模型、搭建BP神经网络前向传播结构并获取随机执行动作,基于强化学习算法的目标函数选择与执行动作相对应的收益函数,在此基础上采用基于策略梯度的强化学习算法反向更新神经网络权值,建立基于强化学习-BP神经网络算法的决策系统;
步骤4),基于上述决策系统获取执行动作并预测车辆行驶状态,由收益函数判断车辆行驶危险度,决策多车道工况下车辆当前时刻的最优驾驶行为,以提高汽车行驶时的安全性及高效性。
2.根据权利要求1所述的基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,步骤1)中基于小角度假设建立车辆动力学模型和轮胎模型的具体步骤如下:
以车辆自身质心O为坐标原点,沿车辆纵轴建立x轴,垂直于x轴并过质心O作y轴,形成车辆坐标系,对车辆沿x轴,y轴和绕z轴的受力进行分析:
式中,分别为车辆沿x、y方向上的加速度,a、b分别为车辆质心到其前、后轴的距离,m为车辆整备质量,Iz为车辆绕z轴的转动惯量,Fxf、Fxr为前、后轮胎受到的基于车身坐标系x方向上的力,Fyf、Fyr为前、后轮胎受到的基于车身坐标系y方向上的力;为车辆横摆角速度;
对动力学模型进行简化,减少计算时间,在计算轮胎力时,采用小角速度假设:
式中,δf表示前轮偏角;
基于较小的前轮偏角和将轮胎模型线性化处理后的车辆动力学模型如下:
式中:Ccf、Ccr表示前、后轮胎侧偏刚度;Clf、Clr表示前、后轮胎纵向刚度;sf、sr表示前、后轮胎的纵向滑移率;
轮胎模型如下:
式中:系数B、C、D由轮胎的垂直载荷和外倾角决定,B为刚度因子;C为形状因子;D为峰值因子;Y()为输出变量代表轮胎所受的各方向力及力矩;x为输入变量,表示轮胎的侧偏角或纵向滑移率;Fz为轮胎所受垂直载荷,γ为轮胎外倾角,E为曲率因子,Sv为垂直偏移,Sh为水平偏移,a1~a15为预先由轮胎实验数据拟合得到的参数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910911284.2/1.html,转载请声明来源钻瓜专利网。





