[发明专利]基于深度强化学习的驾驶员纵向跟车行为模型构建方法有效
申请号: | 202011026453.3 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112201069B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 郭景华;李文昌;王靖瑶;王班;肖宝平 | 申请(专利权)人: | 厦门大学 |
主分类号: | G08G1/0967 | 分类号: | G08G1/0967;G06N3/08;G06N3/04 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 驾驶员 纵向 车行 模型 构建 方法 | ||
1.基于深度强化学习的驾驶员纵向跟车行为模型构建方法,其特征在于包括以下步骤:
步骤1:采集符合中国道路特征的驾驶员跟车行驶过程中的车辆状态信息和周围环境信息,统计分析采集的自然驾驶数据,给出驾驶员跟车行驶过程的行为特性及其影响因素,其过程包括如下子步骤:
步骤1.1,采用激光雷达、CCD摄像机和采集符合中国道路特征的驾驶员驾驶车辆行驶过程中的括速度、加速度、加速踏板开度信号的车辆状态信息以及天气、道路类型、信号灯、标志牌的环境信息;
步骤1.2,基于加权递推平均滤波法对采集的自然驾驶数据进行平滑处理,消除采集原始数据的噪声;
步骤1.3,通过频率分布和累积频率分布特征对不同工况下驾驶员跟车行为规律进行分析和统计;
步骤1.4,并通过相关系数分析车间距离、相对速度、时距因素对驾驶员跟车行为的影响,为建立驾驶员跟车行为模型提供基础;
步骤2:采用关键参数来表征驾驶员在某个时刻t所采取动作的基准信息,建立描述驾驶员跟车行为过程中各状态迭代关系的数学模型:
步骤2.1,确定表征驾驶员基准信息的3个关键参数,分别为第n辆车的速度vn(t)、车辆n与前方目标车辆n-1的相对速度Δv(t),即车辆n-1的速度vn-1(t)与车辆n速度vn(t)的差,以及两车之间的间距s(t),而驾驶员模型的输出为车辆n的纵向加速度an(t);
步骤2.2,建立描述驾驶员跟车过程中各状态变量之间迭代关系的数学模型,如式(1)所示:
其中,Ts为采样时间间隔;
步骤2.3,采用速度作为性能指标,以最小化速度误差为目标训练跟车模型,定义奖励函数形式如下:
r=(vobs-vsim)2 (2)
其中,vobs和vsim分别为驾驶员驾驶经验样本数据和模拟数据;
步骤3:设计驾驶员纵向跟车行为模型的深度神经网络结构:
步骤3.1,确定跟车行为模型深度神经网络结构为竞争网络结构,输入为跟车状态信息,包括主车速度、相对速度以及车间距离,输出为Q值函数;
步骤3.2,将跟车行为模型竞争网络结构设计为4层结构,依次包括输入层、两个隐藏层以及输出层,其中隐藏层分别包含100个和50个神经元;
步骤3.3,将跟车行为模型竞争网络结构的输出层设计为价格函数网络V(St;θ)的输出和优势函数网络A(St,at;θ)的输出线性组合,如下式所示:
其中,St表示t时刻的跟车状态信息,包括主车速度、相对速度以及车间距离,at表示t时刻的加速度动作,a′表示下一个加速度动作,θ表示网络参数向量;
步骤3.4,采用整流线性单元激活函数拟合隐层中的输入输出信号转换关系;
步骤3.5,为限制隐层的输出范围,在隐层中采用tanh激活函数,使隐层输动作保持在[-1,1]范围内;
步骤3.6,从经验回放池取得经验样本后,通过最小化损失函数更新策略网络参数,设计损失函数为:
其中,α表示学习率,rt+1表示执行完具体动作at的奖赏值,N表示为小批量训练的样本数;
步骤3.7,使用N个样本目标值与预计值的均方差来计算损失函数,通过梯度下降完成神经网络参数的更新;
步骤4:设计基于竞争Q网络构架的神经网络的驾驶员纵向跟车行为学习流程,实现对驾驶员纵向跟车行为的准确模拟:
步骤4.1,对竞争Q网络的结构参数以及经验回放池进行初始化,基于行为策略选择随机化的加速度动作;
步骤4.2,在确定性策略中引入Uhlenbeck-Ornstein随机噪声,从而使动作的决策从确定性的过程变为随机过程然后再从随机过程中采样得到动作下达给环境执行;
步骤4.3,环境执行加速度动作后会获得相应的奖励,并进入下一个跟车状态,再进一步将状态转换过程信息(st,at,rt,st+1)存入经验回放池中;
步骤4.4,循环训练时,从经验回放池中采样最小批量数据,进一步通过损失函数更新策略网络参数,通过策略梯度函数更新策略;最后更新目标网络参数,如此循环直至达到收敛条件;
步骤5:设计基于深度强化学习的驾驶员纵向跟车行为模型的训练方法,实现驾驶员纵向跟车行为模型的验证与评估:
步骤5.1,从总自然驾驶数据集中随机挑选并分成用于训练的训练数据集和用于验证的测试数据集;
步骤5.2,利用训练数据对跟车模型参数进行标定,训练开始时使用经验数据对状态进行初始化,并给出训练时的总训练步数;
步骤5.3,训练完成后,根据性能参数指标,如总奖励值或平均奖励值,输出模型训练效果较好时对应步数的模型参数;
步骤5.4,使用训练数据对输出的模型参数进行验证以评估所建立的驾驶员对新数据的泛化能力和适应能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011026453.3/1.html,转载请声明来源钻瓜专利网。