[发明专利]一种基于深度Q神经网络的主动悬架强化学习控制方法有效

申请号：	202010289979.4	申请日：	2020-04-14
公开（公告）号：	CN111487863B	公开（公告）日：	2022-06-17
发明（设计）人：	庄伟超;王茜;薛文根;李荣粲;高珊;张宁;史文波;彭俊	申请（专利权）人：	东南大学;中车长春轨道客车股份有限公司
主分类号：	G05B13/02	分类号：	G05B13/02
代理公司：	南京众联专利代理有限公司 32206	代理人：	薛雨妍
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度神经网络主动悬架强化学习控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度Q神经网络的主动悬架强化学习控制方法，其特征在于：主动悬架强化学习控制框架包括以下几部分：主动悬架强化学习控制器主体、主动悬架系统、状态观测量、悬架主动控制力和奖励；控制器从悬架系统中获取悬架动挠度、车身加速度和车身垂向位移状态观测量，利用控制策略来决定每个状态下采取何种主动力施加给悬架，悬架根据当前施加的主动力改变当前状态，并产生一个奖励用来评判该动作的好坏，其中利用基于深度Q网络的强化学习算法来更新策略；

其中基于深度Q网络的强化学习算法的步骤包括：

步骤一：初始化经验池D用于存储悬架系统经验数据，容量为N；

步骤二：初始化Current Q的权值为θ；

步骤三：初始化Target Q的权值为θ^-；

步骤四：对神经网络进行训练；

设置训练M个回合，每个回合中包含T步；

每步训练过程中，以概率ε随机选取主动力a_t，以1-ε的概率选取其中，s_t为t时刻悬架系统的状态观测量[y₁,y₂,y₃]，y₁为车身加速度，y₂为悬架动挠度，y₃为车身位移；

将a_t作为悬架系统的主动力输入，悬架系统产生当前奖励r_t和执行a_t后下一时刻的输出状态s_t+1；

然后将悬架的经验数据[s_t,a_t,r_t,s_t+1]存入经验池D中，随后从经验池D中小批量随机取样得到一组历史数据[s_j,a_j,r_j,s_j+1]，计算Target Q，将目标神经网络输出层的最大值作为下一状态的目标值：

其中，y_j即为目标Q网络的值，γ为折扣因子，r_j为主动悬架系统状态转移时获得的即时奖励；

使用随机梯度下降法进行优化，使得目标函数，即损失函数；L(θ)＝E[(y_j-Q(s_j,a_j；θ))²]最小，并反向传播至θ；

重复训练更新Current Q(s,a；θ)的参数θ，每过N步利用θ更新θ^-；

当完成T步训练后，即开始下一个回合的训练，当M个回合训练结束后，则Target Q(s,a；θ^-)为训练结果；

考虑到悬架系统的主要性能评价指标包括：①车身垂向加速度，用以表征汽车行驶平顺性和乘坐舒适性；②悬架动挠度，影响车身姿态并与结构设计和布置密切相关，将主动悬架系统状态转移时获得的即时奖励定义为：

r＝-δF_a²-αy₁²-βy₂²-γy₃²

其中，F_a为控制器输出的悬架主动控制力，δ、α、β、γ分别为主动控制力、车身加速度、悬架动挠度、车身位移的权值；

评价网络Current Q(s,a)与目标网络Tar get Q(s,a)为相同结构的深度神经网络，考虑到系统的复杂度，网络采用三层连接，每层之间神经元两两连接，激活函数使用线性整流函数ReLU；网络的输入为悬架系统的三个状态量和主动力，即[y₁,y₂,y₃,F_a]，输出为当下状态的价值。

2.根据权利要求1所述一种基于深度Q神经网络的主动悬架强化学习控制方法，其特征在于：所述步骤四中为了解决样本独立性，创建了一个有限大小的经验池来存储悬架系统的经验样本；对神经网络进行训练时，存在的假设是样本独立同分布，而通过强化学习采集到的数据之间存在着关联性，利用这些数据进行顺序训练，神经网络固然会不稳定；每步训练都从经验池中随机采样以更新网络，这就打乱了样本之间的顺序，减少样本间的相关度，使得训练收敛且稳定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学;中车长春轨道客车股份有限公司，未经东南大学;中车长春轨道客车股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010289979.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种多条线路运行的钢箱叠拱
下一篇：数据处理方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度Q神经网络的主动悬架强化学习控制方法有效

专利文献下载