[发明专利]一种基于确定性策略梯度学习的PHEV能量管理方法有效

专利信息
申请号: 201910659905.2 申请日: 2019-07-22
公开(公告)号: CN110341690B 公开(公告)日: 2020-08-04
发明(设计)人: 何洪文;李岳骋;彭剑坤 申请(专利权)人: 北京理工大学
主分类号: B60W20/11 分类号: B60W20/11;B60W50/00;G06N3/04
代理公司: 北京市诚辉律师事务所 11430 代理人: 范盈
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 确定性 策略 梯度 学习 phev 能量 管理 方法
【权利要求书】:

1.一种基于确定性策略梯度学习的PHEV能量管理方法,其特征在于:具体包括以下步骤:

步骤一、利用深层神经DNN网络分别搭建动作Actor网络和动作价值Critic网络,共同组成确定性策略梯度学习算法的基本网络框架即AC网络,以构建PHEV能量管理策略学习网络;并对所述AC网络参数进行初始化和状态数据的归一化处理;

步骤二、对所述动作价值Critic网络进行预训练,定义并初始化用于存储后续训练产生的状态转移样本的存储空间作为经验池,获取初始时刻的状态向量,采用∈退火贪婪策略选择当前状态下的动作向量,存储当前时刻的状态转移样本,并对所述动作价值Critic网络进行更新;以网络更新迭代次数作为Critic网络预训练和AC网络训练是否满足要求的依据;

步骤三、基于所述步骤二中所选择的当前状态下的动作向量,获取动力系统的控制动作量和驾驶需求,计算PHEV动力系统的动力响应,并评估发动机燃油消耗水平,计算动力电池的状态转移,获取下一时刻状态向量并计算奖赏信号;

步骤四、对动力电池荷电状态SOC参考值初始化并更新SOC偏差,并依次对累积行驶距离以及所述动力电池参考值进行更新;

步骤五、获取当前时刻状态向量并计算当前时刻动作向量,调整动作向量输出频率,动力系统响应动作向量后对下一时刻重复本步骤的能量管理策略在线应用过程直到行驶结束;

步骤六、根据实时行驶车速更新速度转移概率矩阵,记录瞬时燃油消耗率,更新油耗移动平均值,检测是否需要更新能量管理策略;如需要更新,则执行生成新的训练工况,用于所述步骤一与步骤二对所建立的PHEV能量管理策略模型网络进行训练,从而实现所述模型网络的更新。

2.如权利要求1所述的方法,其特征在于:所述步骤一具体包括以下步骤:

(1.1)定义状态空间,建立电量消耗阶段能量管理策略πBM并训练,其状态空间维数为Nstate=7,状态空间S和状态向量s(k)分别定义如下:

S={SoC,ΔSoC,Treq,Preq,acc,v,d}

s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k),d(k)],s(k)∈S

其中,ΔSoC为SoC偏差值,Treq为需求驱动转矩,需求驱动功率Preq=Wreq·Treq,Wreq为需求驱动转速,acc为车辆加速度,v为车速,d为行驶距离,k为当前时刻;

(1.2)建立Actor网络,记为a=μ(s|θμ),μ表示Actor网络,其网络参数为θμ,以状态向量s为输入,输出动作向量为a,策略网络结构为:输入层-全连接层-输出层;

(1.3)建立Critic网络,具有两路支流的深层全连接神经网络,记为q=Q(s,a|θQ)=V(s|θV)+A(a|θA),Q表示Critic网络,其参数集合和动作价值输出分别为θQ和q,具体分为以θV为参数的状态价值网络支流V和以θA为参数的动作优势网络支流A;两路支流具有相同的隐含层结构;状态价值网络支流输入层输入维数与状态空间维数Nstate相同,输出层为线性标量输出;动作优势网络支流输入层输入维数与动作空间维数Naction相同,输出层为线性标量输出;

(1.4)初始化网络参数:采用Xavier初始化方法,产生Actor和Critic网络的初始网络权重和偏置,具体地,产生区间中的均匀分布产生网络初始化参数,其中fanin和fanout分别为所需初始化参数层的输入和输出神经元个数;

(1.5)建立用于稳定训练的目标网络:复制一套与步骤(1.2)-(1.4)所建立的Actor和Critic网络结构和参数均相同的网络,记为目标Actor网络a=和目标Critic网络其中μT表示目标Actor网络,其参数为QT表示目标Critic网络,其参数为

(1.6)训练数据归一化预处理:选定训练工况,计算获得其速度序列、加速度序列、以及需求转矩和功率序列,并分别计算其均值和标准差并保存,按照标准归一化通用公式进行归一化处理

其中,mean(X)和std(X)分别表示输入数据X的均值和标准差;

当且仅当此时为电量消耗阶段策略训练,需对行驶距离d按最大行驶里程进行线性归一化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910659905.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top