[发明专利]一种考虑路面附着条件的大型营运车辆防碰撞决策方法有效
| 申请号: | 202111225837.2 | 申请日: | 2021-10-21 |
| 公开(公告)号: | CN113753034B | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 李旭;胡玮明;胡悦;胡锦超;徐启敏 | 申请(专利权)人: | 东南大学 |
| 主分类号: | B60W30/08 | 分类号: | B60W30/08;B60W40/064;B60W40/10;B60W50/14;G06F30/15;G06F30/27;G06N7/00 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 考虑 路面 附着 条件 大型 营运 车辆 碰撞 决策 方法 | ||
1.一种考虑路面附着条件的大型营运车辆防碰撞决策方法,其特征在于:该方法包括如下步骤:
步骤一:建立车辆运动的动态模型
采用三自由度模型,即考虑纵向、侧向和横摆转动,进行车辆动力学建模;其中,O点为车辆的质心,将前轴的左、右侧车轮合并为一个点记为C点,将后轴的左、右侧车轮合并为一个点记为D点;车辆的动力学模型描述为:
式中,上标“·”表示微分,如表示vx的微分,ωs,vx,vy,ax,ay分别表示领航车的横摆角速度、纵向速度、侧向速度、纵向加速度和侧向加速度,M,δ,Iz分别表示领航车的质量、前轮转向角、绕车身坐标系垂向轴的转动惯量,lf,lr分别表示车辆质心到前轴、后轴的距离,Fxf,Fxr,Fyf,Fyr分别表示前轮、后轮受到的纵向力、侧向力;
其中,轮胎的侧向力表示为:
Fyf=Cαf·αf Fyr=Cαr·αr (2)
式中,Cαf,Cαr分别表示前、后轮胎的侧偏刚度,αf,αr分别表示前、后轮胎的侧偏角,且αf=δ-(vy+lfrs)/vx,αr=(lrrs-vy)/vx;
轮胎的纵向力表示为:
式中,Fxf,Fxr分别表示作用于前、后轮胎的纵向力,Cxf,Cxr分别表示前、后轮胎的纵向刚度,μ为路面附着系数,Fzf,Fzr分别表示前、后轮胎的垂向载荷,sxf,sxr分别表示前、后轮胎的纵向滑移率,通过式(4)、式(5)获得:
式中,Rtyre为轮胎半径,ωf,ωr分别表示前、后轮的旋转角速度,可通过轮速传感器测量的线速度计算获得,vxf,vxr分别表示前、后轮轴上沿轮胎方向的速度,且vxr=vx,vxf=vxcosδ+(vy+lfωs)sinδ;
步骤二:建立基于交互多模型的路面附着系数估计模型
采用UKF算法对路面附着系数、车辆的横摆角速度、横向和纵向速度进行递推估计,具体地:
利用式(1)、式(2)和式(3)所述的车辆与轮胎模型,针对路面附着系数分别为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9和1.0的10种情况,建立10个不同的UKF滤波模型;因此,所建立的滤波状态方程也应有10个;而这10个模型具有相同的形式,其区别仅在于路面附着系数取值的不同;
首先,对于车辆的运动过程,取系统状态向量Xl=[vx vy ωs]T,其中,矩阵上角标T表示对矩阵转置,T为离散的周期;根据式(1)描述的动力学模型,建立系统状态方程:
Xl=fl(Xl,Ul,Wl,γl) (6)
式中,下标l表示第l个模型,f(·)为3维向量函数,Wl为零均值的系统高斯白噪声,γl为系统外输入对应的零均值高斯白噪声,Ul为系统外部输入向量且Ul=[δ Fl_xf Fl_xr]T,其中,δ为前轮转向角,且δ=εs/ρs,εs为方向盘转角,可通过车身CAN总线获取,ρs为转向系的传动比,Fl_xf和Fl_xr分别表示第l个模型中前、后轮胎的纵向力,可通过刷子轮胎模型确定;γl表示系统外部输入向量对应的零均值高斯白噪声向量其中,ωδ表示系统外输入δ对应的零均值高斯白噪声,和表示Fl_xf和Fl_xr对应的零均值高斯白噪声,这些白噪声隐含在状态方程的系统外输入里面;
其次,选择惯性测量单元作为车辆运动的测量传感器,以车辆的纵向前进速度和横摆角速度作为系统观测向量,则系统的观测方程可表示为:
Z(t)=h(X(t),V(t)) (7)
式中,h为观测方程,t表示时间,系统观测向量Z=[vx_m ωz_m]T,其中,vx_m,ωz_m分别表示车辆的纵向前进速度和横摆角速度测量值,可通过惯性测量单元测量获得;
对式(7)和式(8)进行离散化处理,离散化后的系统状态方程和观测方程分别为:
式中,k为离散化时刻,系统过程噪声Wl=[w1 w2 w3]T,其中,w1,w2,w3分别表示3个系统高斯白噪声分量,Wl(k-1)对应的高斯白噪声协方差阵其中,分别表示高斯白噪声w1,w2,w3对应的方差;Ul(k-1)表示k-1时刻第l个模型的系统外部输入向量;Vl为系统观测噪声,且Vl=[v1 v2]T,其中,v1,v2分别表示两个系统高斯白噪声分量,Vl(k)对应的测量高斯白噪声协方差阵其中,分别表示高斯白噪声v1,v2对应的方差,根据传感器的位置、速度、横摆角速度测量噪声的统计特性来确定;系统外输入噪声其中,分别表示δ,Fxf,Fxr对应的零均值高斯白噪声分量,这些白噪声隐含在系统状态函数fl的三个系统外输入中;系统状态函数为:
其中,
最后,根据式(8)描述的系统状态方程和观测方程,运用交互多模型滤波理论,建立基于交互多模型的滤波递推过程,利用时间更新和测量更新进行参数估计:
(1)交互估计计算
上述10个UKF滤波模型之间的转移概率为pjl,下标j、l(j=1,2,…,10,l=1,2,…,10)表示从状态j转移到状态l的概率,则预测第l个模型的模型概率ρl(k,k-1)和预测混合概率ρjl(k-1)分别为:
则交互估计后第l个滤波器在k时刻的输入为:
(2)模型条件滤波
对于式(6)和式(7)所描述的状态方程和观测方程,运用卡尔曼滤波理论,分别对每个滤波器进行UKF滤波递推,第l个模型的滤波过程如下:
1)对输入变量进行初始化并进行参数计算
式中,P0为初始误差方差矩阵,本发明中,带有上标符号^的变量表示该变量的滤波估计值,如为表示输入变量初始值X0的滤波估计值;
2)状态估计
式中,ξi(k-1)为Sigma点,为加权协方差矩阵平方根的第i列,xdim为状态向量的维数;
式中,λ为距离参数,且λ=xdim(α2-1),α为第一刻度因数,分别表示均值和方差的权重系数;
3)时间更新
ξi(k,k-1)=fl[ξi(k,k-1)],i=0,1,...,2xdim (17)
式中,为k-1时刻的最优估计,Pl(k,k-1)为k时刻的一步预测误差方差矩阵;
4)观测更新
χi(k,k-1)=hl[ξi(k,k-1)] (20)
式中,χi(k,k-1)表示观测方程对Sigma点集变换后的值,表示由k-1时刻递推的k时刻的一步预测观测值,为预测值协方差,PXZ为状态值与测量值的协方差;
5)滤波更新
式中,Kl(k)为滤波增益矩阵,为状态量估计值,Pl(k)为估计误差方差阵;
(3)模型概率更新
在每个模型完成上一步的更新之后,利用最大似然函数Λl(k)计算新的模型概率:
根据贝叶斯定理,第l个模型在k时刻的模型概率ρl(k)为:
(4)计算路面附着系数
在计算出各模型为正确的后验概率后,首先,对所有滤波器的状态估计进行概率加权并求和,加权系数为正确的后验概率,得到最终的状态估计为:即滤波递推后的车辆纵向速度、横向速度和横摆角速度;其次,对各模型所设定的附着系数进行概率加权即可求出当前时刻的道路附着系数μ:
式中,μl为第l个模型的路面附着系数,其中,l=1,2,...,10,μ1=0.1,μ2=0.2,...,μ10=1.0;
步骤三:建立基于强化学习的防碰撞驾驶决策模型
采用SARSA算法,建立防碰撞驾驶决策模型,研究不同路面条件下的自适应防碰撞驾驶策略;具体包括以下4个子步骤:
子步骤1:建立状态空间
大型营运车辆的行驶安全不仅与车辆自身的运动状态有关,还与前、后障碍物的相对运动状态有关;因此,利用传感器测量得到的营运车辆运动状态信息、相对运动状态信息和步骤一输出的路面附着系数、车辆的横摆角速度,建立状态空间:
St=(vsx,vsy,vsf,vsr,asx,asy,dsf,dsr,ωs,θstr,δbr,δthr,μ) (30)
式中,vsf,vsr分别表示大型营运车辆与前方车辆、后方车辆的相对速度,单位为米每秒;asx,asy分别表示大型营运车辆的横向加速度和纵向加速度,单位为米每二次方秒;dsf,dsr分别表示与前方车辆、后方车辆的相对距离,单位为米;ωs为大型营运车辆的横摆角速度,单位为弧度每秒;θstr为大型营运车辆的方向盘转角,单位为度,δbr,δthr分别表示大型营运车辆制动踏板开度、节气门开度,单位为百分数;
子步骤2:建立行为空间
兼顾车辆的横向运动和纵向运动,将方向盘转角和加速/制动归一量作为控制量,定义决策模型输出的驾驶策略,即行为空间:
At=[θstr_out,δbr_out,δthr_out] (31)
式中,At为t时刻的动作决策,θstr_out表示归一化后的方向盘转角控制量,范围为[-1,1],δbr_out,δthr_out分别表示归一化后的制动踏板控制量和节气门开度控制量,范围均为[0,1];
子步骤3:建立奖励函数
为了实现对行为空间At优劣的定量评价,通过建立奖励函数的方式,将评价具体化和数值化;若执行行为空间At之后能够使大型营运车辆的行驶状态更加安全,则回报值为正奖励,否则,回报值为负奖励,使得防碰撞驾驶决策模型对上一次执行的错误动作有一定的判断;
在建立防碰撞驾驶策略时,需同时考虑车辆碰撞、侧翻的发生,将奖励函数设计为:
Rt=r1+r2+r3 (32)
式中,Rt为t时刻的奖励函数,r1为安全距离奖励函数,r2为舒适性奖励函数,r3为惩罚函数;
设计考虑路面附着系数的车辆安全距离奖励函数r1:
式中,ω1,ω2为安全距离奖励函数的权重系数;
设计舒适性奖励函数r2=-|asy(t+1)-asy(t)|;
最后,为了对车辆的错误动作进行判断,设计惩罚函数r3:
式中,Spen为惩罚项,在本发明中,取Spen=-500,表示当车辆发生碰撞或侧翻时,决策模型将得到-500的惩罚;
子步骤4:建立行为选择机制
考虑到驾驶决策学习过程中需要与实际交通环境实时交互,本发明采用Pursuit函数建立防碰撞决策的行为更新机制;
式中,在t+1时刻,选择动作决策At=argmaxQ(St,At)的概率为选择其他行为空间的概率为πt+1(At+1);
子步骤5:训练基于SARSA的防碰撞驾驶决策模型
1)初始化Q值矩阵和行为选择矩阵;
2)利用车载传感器获取营运车辆的自身运动状态和与其他交通参与者的相对运动状态,利用步骤一获取路面附着系数,通过式(30)建立初始状态S0;
3)利用Q值经验,在状态空间St对应的行为空间集合中,根据行为选择策略选择一个驾驶决策策略At;
4)在营运车辆行驶过程中执行决策策略At,观测奖励函数Rt和新的状态空间S′t,并选取下一时刻的决策策略,即新的行为空间A′t;
5)对Q值进行更新,更新方法如下:
Qt(St,At)←Qt(St,At)+ψs[Rt+θsQt(S′t,A′t)-Qt(St,At)] (36)
式中,ψs表示学习速率,θs表示折扣因子;
6)将新的状态空间S′t赋予状态空间St,将新的行为空间A′t赋予At;
7)重复步骤3)、步骤4)、步骤5)和步骤6),直到训练过程结束;
子步骤6:利用防碰撞驾驶决策模型输出驾驶策略
将状态空间中的各参数输入到已训练的防碰撞驾驶决策模型中,可以实时输出合理的方向盘转角、制动踏板和节气门开度控制量,为驾驶员提供精确量化、可靠的防碰撞驾驶建议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111225837.2/1.html,转载请声明来源钻瓜专利网。





