[发明专利]自动驾驶混合决策控制方法及系统在审
申请号: | 202310340256.6 | 申请日: | 2023-03-30 |
公开(公告)号: | CN116661299A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 金书峰;孙正海;邱利宏;谯睿智 | 申请(专利权)人: | 重庆长安汽车股份有限公司 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 董杰 |
地址: | 400023 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 驾驶 混合 决策 控制 方法 系统 | ||
本发明实施例提供一种自动驾驶混合决策控制方法及系统,属于自动驾驶技术领域。方法包括:采集实时场景信息预构建多个驾驶策略方案;基于汽车运动学模型构建强化学习的状态空间,并在状态空间中构建并训练基于所述强化学习的、每个驾驶策略方案下的两个预设端之间的自动驾驶控制模型;基于在线Q网络函数构建模型不确定性评估模型,并分别对各自动驾驶控制模型进行不确定性评价,获得各自动驾驶控制模型的不确定性;对比各自动驾驶控制模型的不确定性,筛选出不确定性最低的自动驾驶控制模型对应的驾驶策略方案作为目标驾驶策略方案,并基于目标驾驶策略方案执行后续自动驾驶控制。本发明方案提高了自动驾驶决策方案在陌生环境中的适应能力。
技术领域
本发明涉及自动驾驶技术领域,具体涉及一种自动驾驶混合决策控制方法及一种自动驾驶混合决策控制系统。
背景技术
自动驾驶作为提升交通效率与行驶安全的重要技术,受到了业界的广泛关注和深入研究,而自动驾驶技术的安全性则成为决定其推广应用的关键因素。目前,自动驾驶的规划控制算法已较成熟,但决策技术仍存在较大挑战,成为产学研界的研究重点。决策方法主要分为基于规则和基于学习两大方向,其中基于规则的决策算法需要人工进行大量规则制定,算法繁琐,难以应对复杂多变的交通场景,而基于学习的决策方法则提供了另一条可行的解决思路。在基于学习的决策方法中,深度强化学习算法可以采用神经网络实现从传感输入到动作输出的端到端控制,通过与环境的不断交互及训练,从而实现对正确决策方式的学习,摆脱了对规则制定工作的依赖。目前常用的强化学习网络为Q网络,又叫DQN,深度Q网络指的就是神经网络用到了深度学习的相关内容,是基于深度学习的Q学习算法。但由于神经网络存在黑箱特效,基于深度强化学习的端到端自动驾驶算法在面对训练范围外的陌生场景时无法输出安全的动作,从而带来安全隐患。现有存在的自动驾驶决策方案普遍存在的陌生环境适应性差和鲁棒性差等问题,针对该问题,需要创造一种新的自动驾驶混合决策控制方案。
发明内容
本发明的目的在于提供一种自动驾驶混合决策控制方法及系统,以解决现有自动驾驶决策方案普遍存在的陌生环境适应性差和鲁棒性差的问题。
为了实现上述目的,本发明采用的技术方案如下:
本发明第一方面提供一种自动驾驶混合决策控制方法,所述自动驾驶混合决策控制方法包括:采集实时场景信息,预构建多个驾驶策略方案;基于汽车运动学模型构建强化学习的状态空间,并在状态空间中,构建并训练基于所述强化学习的、每个驾驶策略方案下的两个预设端之间的自动驾驶控制模型;基于强化学习网络函数构建模型不确定性评估模型,并分别对各自动驾驶控制模型进行不确定性评价,获得各自动驾驶控制模型的不确定性;对比各自动驾驶控制模型的不确定性,筛选出不确定性最低的自动驾驶控制模型对应的驾驶策略方案作为目标驾驶策略方案,并基于所述目标驾驶策略方案执行后续自动驾驶控制。
可选的,所述预构建多个驾驶策略方案,包括:构建MOBIL算法驾驶策略和MPC算法驾驶策略。
可选的,所述MOBIL算法驾驶策略为:
其中,为自车变道后新车道上相邻后车的加速度;bmax为自车最大制动加速度;为自车变道后的加速度;为自车变道前的加速度;p为礼貌系数;为自车变道后原车道上相邻后车的加速度;为自车变道前原车道上相邻后车的加速度,athreshold为加速度阈值。
可选的,所述MPC算法驾驶策略为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310340256.6/2.html,转载请声明来源钻瓜专利网。