[发明专利]一种基于人车风险状态的人机共驾控制权决策方法有效
申请号: | 202110848303.9 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113335291B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 郭柏苍;金立生;谢宪毅;贺阳;韩广德 | 申请(专利权)人: | 燕山大学 |
主分类号: | B60W40/00 | 分类号: | B60W40/00;B60W40/09;B60W50/08 |
代理公司: | 长春市吉利专利事务所(普通合伙) 22206 | 代理人: | 石星星;李晓莉 |
地址: | 066004 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 风险 状态 人机 控制权 决策 方法 | ||
1.一种基于人车风险状态的人机共驾控制权决策方法,其特征在于,包括以下步骤,且以下步骤顺次进行:
步骤S1、建立基于人-车风险状态博弈关系的强化学习奖惩机制;
步骤S1-1、在已完成智能车辆有能力预测驾驶人风险驾驶行为状态和车辆运行风险状态的基础上,使用马尔科夫决策过程处理人车风险监测结果,使其符合强化学习算法的运算规则;
步骤S1-2、针对强化学习算法框架中的奖励函数设定问题,以期望效用最大定理为准则,以效用最大化为目标,提出基于完全信息静态博弈的人-车风险状态博弈方法;
步骤S1-3、使用逼近理想解排序法计算得到的理想点相对距离作为策略收益的量化手段,基于使用熵权法计算得到的指标权值,以无风险驾驶状态的驾驶行为表征指标和时间裕度为负理想点,提取其他各风险等级的驾驶行为表征指标和时间裕度数据,分别计算以负理想点为基准的相对距离,得到考虑人-车风险博弈关系的效用矩阵;
步骤S2、提出基于强化学习算法架构的人机共驾控制权决策方法;
步骤S2-1、借助于马尔科夫决策过程的时序特征描述智能体的环境交互方式,将人、车风险监测结果嵌入强化学习算法架构;
步骤S2-2、以步骤S1的强化学习奖惩机制作为决策的奖励或惩罚参照标准,提出基于强化学习算法架构的人机共驾控制权决策方法,通过全局寻优的方式遍历模型的决策系数和切换时机,使模型得到相对最佳的决策输出结果,兼顾最优的自动化系统切换时机;
至此,完成整个决策模型的构建。
2.根据权利要求1所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,所述步骤S1具体包括以下步骤,且以下步骤顺次进行:
第一步、构建标准化评估矩阵,X是原始数据矩阵,m是指标的维度,n是指标的数目,x′ij是标准化数据;
第二步、指标的特征比例计算;
第三步、指标的信息熵计算,pij是指标的特征比例,ei是指标的信息熵;
第四步、基于信息熵冗余的权重计算,wj为指标的权值;
第五步、指数的中间型化处理;
式中,xij是原始数据,是中间正则化处理后的数据,以无风险驾驶等级的表征指标作为控制变量,以xL作为其他风险等级的表征指标;
第六步、归一化初始矩阵,zij是正向指标的归一化值,即每个列元素除以当前列向量的范数;
第七步、各个风险等级和负理想点之间的相对距离计算;
式中,wj是由式(5)计算的熵权值;是各个风险等级驾驶状态负理想点之间的相对距离,以此构造人-车风险博弈关系的效用矩阵。
3.根据权利要求2所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,所述第七步中构造人-车风险博弈关系的效用矩阵时,设ρ和σ分别为人、车风险状态的效用值,uhuman(σt)和uvehicle(σt)分别为驾驶行为风险状态和车辆行驶风险状态的期望效用函数,q为策略概率;
当驾驶行为风险状态为RPihuman时,车辆风险状态的期望收益为uvehicle(σi)=q·σi+(1-q)·σi+1;当驾驶行为风险状态为时,车辆风险状态的期望收益为uvehicle(σj)=q·σj+(1-q)·σj+1;
为了使车辆风险状态在任意驾驶行为风险状态时都有稳定的效用,则效用函数U(σ)的计算方法如公式(12),式中的效用值σi、σi+1、σj和σj+1由公式(11)计算得到;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110848303.9/1.html,转载请声明来源钻瓜专利网。