[发明专利]一种基于深度强化学习的自主驾驶规则学习方法有效

申请号：	202010050338.3	申请日：	2020-01-17
公开（公告）号：	CN111222630B	公开（公告）日：	2023-07-25
发明（设计）人：	张利国;景艳枰;崔铜巢	申请（专利权）人：	北京工业大学
主分类号：	G06N3/0499	分类号：	G06N3/0499;G06N3/048;G06N3/092;G06Q10/0637;G06Q50/30
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习自主驾驶规则学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的自主驾驶规则学习方法，其特征在于：该方法的具体实现步骤如下：

步骤1：自主驾驶车辆信息获取；

在行驶过程中，自主驾驶车辆需要获取的信息包括：路网中网联车辆的位置x和速度v；当前自主驾驶车辆的行驶状态，包括自主驾驶车辆的速度、加速度和位置；自主驾驶车辆根据网联车辆的行驶状态采取驾驶行为；网联车辆的行驶状态，作为驾驶策略模型的输入；

步骤2：自主驾驶车辆驾驶规则；

定义的自主驾驶车辆的驾驶行为是车辆的加速度α，自主驾驶车辆在t，t+1时刻的速度分别为velocity_t，velocity_t+1，自主驾驶车辆更新运动状态的方程为：

步骤3：自主驾驶车辆驾驶规则的奖惩机制；

设定自主驾驶车辆的加速度阈值为accel_threshold，求取所存储的自主驾驶车辆驾驶行为α的均值α_avg，将α_avg与accel_threshold进行比较，如果α_avg＞accel_threshold，则有，

r_accel＝r+δ*(accel_threshold-a_avg),α_avg＞accel_threshold

其中，r表示发生车辆碰撞行为之前所获取的奖励值，δ为超参数；

当有车辆碰撞的行为发生时有一个负奖励值r_collide＝-500；

令υ_i(t)和h_i(t)分别为车辆i在时间步长t处的速度和时距；奖励方程形式如下所示：

其中υ_des期望速度；h_max为时间间隔阈值，α为增益；

步骤4：自主驾驶车辆驾驶策略模型；

自主驾驶车辆驾驶策略模型选取多层感知器MLP；

自主驾驶车辆的驾驶策略模型由4层网络构成，包括输入层、隐藏层以及输出层；隐藏层的数量为3个，输出层的数量为1个；

步骤5：自主驾驶车辆驾驶规则的学习；

自主驾驶车辆驾驶规则的学习在每一个时间步长都会获取路网中的网联车辆的位置和速度，通过自主驾驶车辆的驾驶策略模型输出驾驶行为的概率值；存储每个回合的路网中网联车辆的位置和速度、自主驾驶车辆采取的驾驶行为、奖励值以及下一个时间步长网联车辆的速度和位置；当收集到网联车辆行驶状态数据后，从数据中采样MiniBatch进行训练；其中自主驾驶车辆驾驶策略模型调整通过PG算法实现；

在PG算法中，使用J(θ)代表目标函数，表示整个回合的期望回报；将轨迹的期望回报展开，得到

J(θ)＝∫_τ-πθ(τ)π_θ(τ)r(τ)dτ

其中策略τ表示在回合中，每个状态s下所采取的动作a所构成的序列τ＝{s₁,a₁,s₂,a₂,...,s_T,a_T}，πθ(τ)表示选择行为的概率，r(τ)表示回合中获得的奖励值；PG算法的目标是使得期望回报值最大化，最大化的过程通过梯度计算实现，得到求解梯度的最终形式

将自主驾驶车辆驾驶动作a_old的概率分布p_aold作为期望输出概率分布；将网联车辆的行驶状态s组合为一个矩阵输入到神经网络中，经过Softmax后输出驾驶动作的概率分布p_anew，作为实际输出概率分布；计算两个概率分布的接近程度

通过奖励值的大小来判断计算出来的梯度是否值得信赖；交叉熵损失函数为

奖励值进行反向传播之前进行折扣处理，表示当下的奖励值要比未来的奖励值更为重要

R_discount＝r₁+γr₂+γ²r₃+...

其中γ代表贴现因子，交叉熵损失函数的最终形式如下：

接下来进行参数更新

其中，learning_rate表示学习速率，θ表示更新之前的自主驾驶车辆的驾驶策略模型，为更新的自主驾驶车辆的驾驶策略模型。

2.根据权利要求1所述的一种基于深度强化学习的自主驾驶规则学习方法，其特征在于：步骤4的网络结构如下：

输入层：输入层有2个神经元，首先根据输入层的输入元素x_i、权重和偏置求解出隐藏层的输入元素