[发明专利]一种基于深度强化学习的自主驾驶规则学习方法有效
| 申请号: | 202010050338.3 | 申请日: | 2020-01-17 |
| 公开(公告)号: | CN111222630B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 张利国;景艳枰;崔铜巢 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06N3/0499 | 分类号: | G06N3/0499;G06N3/048;G06N3/092;G06Q10/0637;G06Q50/30 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 自主 驾驶 规则 学习方法 | ||
1.一种基于深度强化学习的自主驾驶规则学习方法,其特征在于:该方法的具体实现步骤如下:
步骤1:自主驾驶车辆信息获取;
在行驶过程中,自主驾驶车辆需要获取的信息包括:路网中网联车辆的位置x和速度v;当前自主驾驶车辆的行驶状态,包括自主驾驶车辆的速度、加速度和位置;自主驾驶车辆根据网联车辆的行驶状态采取驾驶行为;网联车辆的行驶状态,作为驾驶策略模型的输入;
步骤2:自主驾驶车辆驾驶规则;
定义的自主驾驶车辆的驾驶行为是车辆的加速度α,自主驾驶车辆在t,t+1时刻的速度分别为velocityt,velocityt+1,自主驾驶车辆更新运动状态的方程为:
步骤3:自主驾驶车辆驾驶规则的奖惩机制;
设定自主驾驶车辆的加速度阈值为accel_threshold,求取所存储的自主驾驶车辆驾驶行为α的均值αavg,将αavg与accel_threshold进行比较,如果αavg>accel_threshold,则有,
raccel=r+δ*(accel_threshold-aavg),αavg>accel_threshold
其中,r表示发生车辆碰撞行为之前所获取的奖励值,δ为超参数;
当有车辆碰撞的行为发生时有一个负奖励值rcollide=-500;
令υi(t)和hi(t)分别为车辆i在时间步长t处的速度和时距;奖励方程形式如下所示:
其中υdes期望速度;hmax为时间间隔阈值,α为增益;
步骤4:自主驾驶车辆驾驶策略模型;
自主驾驶车辆驾驶策略模型选取多层感知器MLP;
自主驾驶车辆的驾驶策略模型由4层网络构成,包括输入层、隐藏层以及输出层;隐藏层的数量为3个,输出层的数量为1个;
步骤5:自主驾驶车辆驾驶规则的学习;
自主驾驶车辆驾驶规则的学习在每一个时间步长都会获取路网中的网联车辆的位置和速度,通过自主驾驶车辆的驾驶策略模型输出驾驶行为的概率值;存储每个回合的路网中网联车辆的位置和速度、自主驾驶车辆采取的驾驶行为、奖励值以及下一个时间步长网联车辆的速度和位置;当收集到网联车辆行驶状态数据后,从数据中采样MiniBatch进行训练;其中自主驾驶车辆驾驶策略模型调整通过PG算法实现;
在PG算法中,使用J(θ)代表目标函数,表示整个回合的期望回报;将轨迹的期望回报展开,得到
J(θ)=∫τ-πθ(τ)πθ(τ)r(τ)dτ
其中策略τ表示在回合中,每个状态s下所采取的动作a所构成的序列τ={s1,a1,s2,a2,...,sT,aT},πθ(τ)表示选择行为的概率,r(τ)表示回合中获得的奖励值;PG算法的目标是使得期望回报值最大化,最大化的过程通过梯度计算实现,得到求解梯度的最终形式
将自主驾驶车辆驾驶动作aold的概率分布paold作为期望输出概率分布;将网联车辆的行驶状态s组合为一个矩阵输入到神经网络中,经过Softmax后输出驾驶动作的概率分布panew,作为实际输出概率分布;计算两个概率分布的接近程度
通过奖励值的大小来判断计算出来的梯度是否值得信赖;交叉熵损失函数为
奖励值进行反向传播之前进行折扣处理,表示当下的奖励值要比未来的奖励值更为重要
Rdiscount=r1+γr2+γ2r3+...
其中γ代表贴现因子,交叉熵损失函数的最终形式如下:
接下来进行参数更新
其中,learning_rate表示学习速率,θ表示更新之前的自主驾驶车辆的驾驶策略模型,为更新的自主驾驶车辆的驾驶策略模型。
2.根据权利要求1所述的一种基于深度强化学习的自主驾驶规则学习方法,其特征在于:步骤4的网络结构如下:
输入层:输入层有2个神经元,首先根据输入层的输入元素xi、权重和偏置求解出隐藏层的输入元素
式中:p层为输入层元素数量;q为隐藏层元素数量;i代表输入层神经元;神经网络输入是自主驾驶车辆感知的路网中网联车辆的位置和速度[vN,xN],N代表路网中存在的网联车辆数量;
隐藏层:将隐藏层的输入元素导入其激活函数中,求出隐藏层的输出元素zj,激活函数选取tanh函数;隐藏层的输出元素zj函数表达式为
输出层:将隐藏层的输出元素zj、权重和偏置导入其激活函数中,求解出输出层的输入元素
式中:j为输出层的元素数量,n为隐藏层层数;输出层是自主驾驶车辆所采取的驾驶行为;
将输出层的输入元素导入其激活函数中,求解输出层的输出元素yk,激活函数采用Softmax函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010050338.3/1.html,转载请声明来源钻瓜专利网。





