[发明专利]一种基于深度Q神经网络的主动悬架强化学习控制方法有效
| 申请号: | 202010289979.4 | 申请日: | 2020-04-14 |
| 公开(公告)号: | CN111487863B | 公开(公告)日: | 2022-06-17 |
| 发明(设计)人: | 庄伟超;王茜;薛文根;李荣粲;高珊;张宁;史文波;彭俊 | 申请(专利权)人: | 东南大学;中车长春轨道客车股份有限公司 |
| 主分类号: | G05B13/02 | 分类号: | G05B13/02 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 薛雨妍 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 神经网络 主动 悬架 强化 学习 控制 方法 | ||
1.一种基于深度Q神经网络的主动悬架强化学习控制方法,其特征在于:主动悬架强化学习控制框架包括以下几部分:主动悬架强化学习控制器主体、主动悬架系统、状态观测量、悬架主动控制力和奖励;控制器从悬架系统中获取悬架动挠度、车身加速度和车身垂向位移状态观测量,利用控制策略来决定每个状态下采取何种主动力施加给悬架,悬架根据当前施加的主动力改变当前状态,并产生一个奖励用来评判该动作的好坏,其中利用基于深度Q网络的强化学习算法来更新策略;
其中基于深度Q网络的强化学习算法的步骤包括:
步骤一:初始化经验池D用于存储悬架系统经验数据,容量为N;
步骤二:初始化Current Q的权值为θ;
步骤三:初始化Target Q的权值为θ-;
步骤四:对神经网络进行训练;
设置训练M个回合,每个回合中包含T步;
每步训练过程中,以概率ε随机选取主动力at,以1-ε的概率选取其中,st为t时刻悬架系统的状态观测量[y1,y2,y3],y1为车身加速度,y2为悬架动挠度,y3为车身位移;
将at作为悬架系统的主动力输入,悬架系统产生当前奖励rt和执行at后下一时刻的输出状态st+1;
然后将悬架的经验数据[st,at,rt,st+1]存入经验池D中,随后从经验池D中小批量随机取样得到一组历史数据[sj,aj,rj,sj+1],计算Target Q,将目标神经网络输出层的最大值作为下一状态的目标值:
其中,yj即为目标Q网络的值,γ为折扣因子,rj为主动悬架系统状态转移时获得的即时奖励;
使用随机梯度下降法进行优化,使得目标函数,即损失函数;L(θ)=E[(yj-Q(sj,aj;θ))2]最小,并反向传播至θ;
重复训练更新Current Q(s,a;θ)的参数θ,每过N步利用θ更新θ-;
当完成T步训练后,即开始下一个回合的训练,当M个回合训练结束后,则Target Q(s,a;θ-)为训练结果;
考虑到悬架系统的主要性能评价指标包括:①车身垂向加速度,用以表征汽车行驶平顺性和乘坐舒适性;②悬架动挠度,影响车身姿态并与结构设计和布置密切相关,将主动悬架系统状态转移时获得的即时奖励定义为:
r=-δFa2-αy12-βy22-γy32
其中,Fa为控制器输出的悬架主动控制力,δ、α、β、γ分别为主动控制力、车身加速度、悬架动挠度、车身位移的权值;
评价网络Current Q(s,a)与目标网络Tar get Q(s,a)为相同结构的深度神经网络,考虑到系统的复杂度,网络采用三层连接,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;网络的输入为悬架系统的三个状态量和主动力,即[y1,y2,y3,Fa],输出为当下状态的价值。
2.根据权利 要求1所述一种基于深度Q神经网络的主动悬架强化学习控制方法,其特征在于:所述步骤四中为了解决样本独立性,创建了一个有限大小的经验池来存储悬架系统的经验样本;对神经网络进行训练时,存在的假设是样本独立同分布,而通过强化学习采集到的数据之间存在着关联性,利用这些数据进行顺序训练,神经网络固然会不稳定;每步训练都从经验池中随机采样以更新网络,这就打乱了样本之间的顺序,减少样本间的相关度,使得训练收敛且稳定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学;中车长春轨道客车股份有限公司,未经东南大学;中车长春轨道客车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010289979.4/1.html,转载请声明来源钻瓜专利网。





