[发明专利]基于深度强化学习的混合动力车辆油门控制方法及系统有效
| 申请号: | 202010401009.9 | 申请日: | 2020-05-13 |
| 公开(公告)号: | CN111547039B | 公开(公告)日: | 2021-03-23 |
| 发明(设计)人: | 邹渊;张旭东;孙逢春;邹润楠 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | B60W20/00 | 分类号: | B60W20/00;B60W50/00 |
| 代理公司: | 北京高沃律师事务所 11569 | 代理人: | 杜阳阳 |
| 地址: | 100044 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 强化 学习 混合 动力 车辆 油门 控制 方法 系统 | ||
本发明涉及一种基于深度强化学习的混合动力车辆油门控制方法及系统,包括:获取车辆上一时刻的状态量,记第一状态量;根据第一状态量采用深度神经网络确定当前时刻油门控制量,记第一油门控制量;深度神经网络中包括归一化优势函数;根据第一油门控制量控制车辆的油门;将第一油门控制量输入到车辆的动力学模型中,得当前时刻的状态量,记第二状态量;根据第一状态量、第一油门控制量和第二状态量确定数据段;直至获取T个连续时刻的数据段;根据各数据段对深度神经网络中的权值进行调节,得更新后的深度神经网络,采用更新后的深度神经网络确定当前时刻油门控制量,从而精确的对车辆油门进行控制,通过本发明的上述方法提高了对油门的精度控制。
技术领域
本发明涉及汽车油门控制技术领域,特别是涉及一种基于深度强化学习的混合动力车辆油门控制方法及系统。
背景技术
目前,针对混合动力汽车油门控制问题的主要解决方案有基于规则的方法和以动态规划、强化学习为代表的基于优化的方法。基于规则的方法需要提前知道工程师预设发动机及电池工作模式切换规则,因此对于复杂多变的路况缺乏适应性,难以实现混合动力车辆节能性及高机动性。基于深度强化学习的油门控制方法能有效学习道路工况信息,针对已获取道路信息通过神经网络的训练求得最优策略。但是传统深度强化学习训练中,常将已训练过数据片段储存于经验池中,在训练中随机提取进行再训练以打破数据相关性,随机提取历史经验片段使得训练时间较长且伴随有陷入局部最优解的风险,从而获取的控制量精度低。
发明内容
本发明的目的是提供一种基于深度强化学习的混合动力车辆油门控制方法及系统,提高油门控制精度。
为实现上述目的,本发明提供了如下方案:
一种基于深度强化学习的混合动力车辆油门控制方法,所述混合动力车辆油门控制方法包括:
S1,获取车辆上一时刻的状态量,记为第一状态量;
S2,根据所述第一状态量采用深度神经网络确定当前时刻油门控制量,记为第一油门控制量;所述深度神经网络中包括归一化优势函数;
S3,根据所述第一油门控制量控制车辆的油门;
S4,获取车辆的动力学模型;
S5,将所述第一油门控制量输入到所述车辆的动力学模型中,得到当前时刻的状态量,记为第二状态量;
S6,根据所述第一状态量、所述第一油门控制量和所述第二状态量确定数据段;重复S1至S6直至获取T个连续时刻的数据段;
S7,根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络;并返回S2,采用所述更新后的深度神经网络确定当前时刻油门控制量。
可选的,所述根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络,具体包括:
根据所述数据段获取所述数据段对应的取值概率;
根据所述取值概率确定数据段权值;
根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励;
根据所述奖励和所述数据段权值确定数据段损失;
根据所述数据段损失调节所述深度神经网络中的权值,得到更新后的深度神经网络。
可选的,所述根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励,具体包括:
根据公式确定数据段所对应的奖励;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010401009.9/2.html,转载请声明来源钻瓜专利网。





