[发明专利]一种基于确定性策略梯度学习的PHEV能量管理方法有效
申请号: | 201910659905.2 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110341690B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 何洪文;李岳骋;彭剑坤 | 申请(专利权)人: | 北京理工大学 |
主分类号: | B60W20/11 | 分类号: | B60W20/11;B60W50/00;G06N3/04 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 范盈 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 确定性 策略 梯度 学习 phev 能量 管理 方法 | ||
本发明提供了一种基于确定性策略梯度学习的PHEV能量管理方法,实现了基于确定性策略梯度学习的PHEV能量管理中包括策略训练、在线应用、效果检测、反馈更新等多个方面的闭环应用,相对于现有技术具有更高的精确度,大大提高了PHEV能量管理的效率与可靠性,具有当前的诸多管理策略所不具备的有益效果。
技术领域
本发明涉及插电式混合动力汽车(Plug-in Hybrid Electric Vehicle,简称PHEV)能量管理技术,尤其涉及一种基于确定性策略梯度学习算法对PHEV能量进行包括策略训练、在线应用、效果检测、反馈更新等的闭环管理方法及其应用。
背景技术
对于城市工况而言,插电式混合动力汽车(Plug-in Hybrid Electric Vehicle,简称PHEV)的节能减排优势非常突出,而如何协调各车载动力源间的能量分配,实现高效能量管理,对其优势发挥至关重要。由于PHEV装备有大容量动力电池,且能及时通过电网充电,故其动力电池荷电状态(State of charge,SoC)可在较大范围内变动,稳持能量管理策略难以充分发挥PHEV的节能优势。目前商业应用中采用较多的规则式纯电动-电量稳持模式,电量消耗较快,且进入电量稳持模式后,燃油经济性提升空间将大幅受限。对于基于优化的PHEV能量管理策略,最具代表性的为基于动态规划的能量管理,通常可以获得全局最优的能量分配策略,但要求全局工况已知、计算资源需求大,难以在线应用。因此,许多能量管理策略基于或结合全局最优策略进行拓展,以在实时能量管理中复现全局最优策略的效果,例如,基于动态规划策略标定发动机经济性工作区域、设计规则式能量管理策略;利用全局最优策略得到的最优控制序列,利用有监督学习训练神经网络,然而此类策略容易受限于样本数据,在复杂工况下的泛化能力具有局限性。另一方面,为获取实际车辆行驶工况先验知识,一些能量管理策略通过行驶工况预测模型或智能交通系统,获取部分或全局PHEV行驶工况先验信息,结合模型预测控制、自适应最小燃油消耗策略设计响应的实时能量管理策略,或结合云端计算解决动态规划能量管理策略计算量大的问题。
相比于动态规划全局最优能量管理策略,对于同样采用马尔可夫决策过程(Markov Decision Process,MDP)对能量管理问题进行建模的强化学习能量管理方法而言,其采用了迭代学习的方式以解决全局最优能量管理策略的复现,不依赖于未来行驶工况等先验信息,可实际应用的场景更广泛。然而,基于基本强化学习算法的能量管理策略,特别是采用表格式策略表征的强化学习算法,其训练效率和策略泛化能力仍有待提高。近年来,一些快速发展的深度强化学习方法,如确定性策略梯度算法、深层动作价值网络算法等,结合了深度学习强大的非线性表征能力,学习最优策略的效率和效果更好,并逐步在实际物理系统中取得突破性进展,显示了深度强化学习在复杂控制问题上的应用潜力。与此同时,逐渐出现的深度强化学习能量管理策略也展示了其良好的燃油经济性和鲁棒性。但是,目前基于深度强化学习方法的PHEV能量管理策略仍停留于训练和策略评估两个阶段,其策略训练、在线应用、效果检测、反馈更新的完整闭环应用体系尚未形成,这也是本领域亟待解决的问题,解决此问题对提高深度强化学习能量管理策略实际应用的可靠性也有着积极的意义。
发明内容
针对上述本领域中存在的技术问题,本发明提供了一种基于确定性策略梯度学习算法对PHEV能量进行包括策略训练、在线应用、效果检测、反馈更新等的闭环管理方法,该方法具体包括以下步骤:
步骤一、利用深层神经网络(DNN)分别搭建动作网络(Actor)和动作价值网络(Critic),共同组成确定性策略梯度学习算法的基本网络框架(AC网络),以构建PHEV能量管理策略学习网络;并对所述AC网络参数进行初始化和状态数据的归一化处理;
步骤二、对所述动作价值网络进行预训练,定义并初始化用于存储后续训练产生的状态转移样本的存储空间作为经验池,获取初始时刻的状态向量,采用∈退火贪婪策略选择当前状态下的动作向量,存储当前时刻的状态转移样本,并对所述动作价值网络进行更新;以网络更新迭代次数作为Critic网络预训练和AC网络训练是否满足要求的依据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910659905.2/2.html,转载请声明来源钻瓜专利网。