[发明专利]基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法在审
| 申请号: | 202211135878.7 | 申请日: | 2022-09-19 |
| 公开(公告)号: | CN115457782A | 公开(公告)日: | 2022-12-09 |
| 发明(设计)人: | 李云;赵睿;高镇海;高菲;张天瑶 | 申请(专利权)人: | 吉林大学 |
| 主分类号: | G08G1/081 | 分类号: | G08G1/081;G06N3/08;G06N3/04;G06K9/62;G06F30/20 |
| 代理公司: | 深圳众邦专利代理有限公司 44545 | 代理人: | 李茂松 |
| 地址: | 130000 吉*** | 国省代码: | 吉林;22 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 强化 学习 自动 驾驶 车辆 交叉口 冲突 合作 方法 | ||
1.基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法,其特征在于:包括如下步骤:
步骤1:交叉口问题马尔可夫建模,综合考虑安全约束马尔可夫决策(constrainedMarkov decision process,CMDP)与马尔可夫博弈(Markov Game,MG)理论,将道路交叉口环境转化为为符合强化学习算法要求的模型;
步骤2:单策略网络与双价值网络更新过程设计,设计单策略-双评论家(Actor-Critic1-Critic2)网络架构,以满足高随机动态道路交叉口环境中对安全性的需求:
步骤3:马尔可夫形式数据搜集,实时搜集当前环境中所有车辆离开道路交叉口的距离、预期转向、车速以及当前环境中存在的车辆作为强化学习算法的状态空间;
步骤4:强化学习训练,训练单策略-双评论家(Actor-Critic1-Critic2)神经网络,通过CMDP环境信息来不断更新神经网络,最终使策略收敛,在高动态的环境中也能实时输出安全、高效、舒适的策略;
步骤5:强化学习测试,在仿真器Carla中实际测试该强化学习算法的性能,并与传统MPC方法对比,重点测试公开的策略在计算实效性、安全性、舒适性与通行效率等方面相对于传统方法的优势。
2.根据权利要求1所述的基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法,其特征在于:所述步骤2中,策略网络用于输出控制行为,价值网络critic1用于评估全局环境的安全、高效与舒适性,critic2用于专门评估全局环境的安全性。
3.根据权利要求1所述的基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法,其特征在于:所述步骤3中,在车辆与环境不断交互的过程中搜集全局奖励函数与安全函数,将搜集到的信息组合形成轨迹以作为神经网络的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211135878.7/1.html,转载请声明来源钻瓜专利网。





