[发明专利]一种基于DQN强化学习的列车姿态控制方法有效
| 申请号: | 202010424524.9 | 申请日: | 2020-05-19 |
| 公开(公告)号: | CN111781940B | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 付云骁;田寅;唐海川;龚明;孙帮成;樊玉明;刘琦 | 申请(专利权)人: | 中车工业研究院有限公司 |
| 主分类号: | G05D1/08 | 分类号: | G05D1/08;G05B13/04;G05B13/02;G06N3/08;G06N3/04;B61F5/26;B61C17/00 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
| 地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 dqn 强化 学习 列车 姿态 控制 方法 | ||
1.一种基于DQN强化学习的列车姿态控制方法,其特征在于,包括:
实时获取车辆的姿态参数;
根据车辆的姿态参数确定车辆当前所属的运行状态;
根据车辆当前所属的运行状态以及目标运行状态,基于DQN算法模型,生成用于使得车辆平稳运行的减振控制指令;
根据所述减振控制指令对车辆运行姿态进行实时调整;
其中,车辆姿态参数为:转向架垂向振动加速度、速度信息;
车辆运行状态有六种,分别为加速启动运行状态、既有线平稳运行状态、既有线切换高速线运行状态、高速线平稳运行状态、高速线切换既有线运行状态和制动 减速运行状态;
所述车辆的姿态参数包括车辆的振动加速度;相应地,根据车辆的姿态参数确定车辆当前所属的运行状态,具体包括:
根据车辆的振动加速度,确定车辆运行姿态的特征值;所述特征值包括峭度、峰值、裕度、波形、脉冲和偏态;
根据车辆运行姿态的特征值,确定车辆当前所属的运行状态;
其中,车辆当前所属的运行状态包括:加速启动运行状态、既有线平稳运行状态、既有线切换高速线运行状态、高速线平稳运行状态、高速线切换既有线运行状态和制动减速运行状态中的一种;
所述目标运行状态为高速线平稳运行状态;
相应地,根据车辆当前所属的运行状态以及目标运行状态,基于DQN算法模型,生成用于使得车辆平稳运行的减振控制指令,具体包括:
确定车辆六种运行状态的可达性矩阵;
根据车辆六种运行状态的可达性矩阵以及预设分析数据,确定车辆六种运行状态的状态转移概率矩阵;
根据使得车辆平稳运行的控制需求,设定车辆六种运行状态的状态转移奖励矩阵;
根据车辆当前所属的运行状态、目标运行状态、状态转移概率矩阵和状态转移奖励矩阵,按照第一关系模型,确定最大奖励值对应的状态转移路径以及该状态转移路径对应的减振控制指令;
其中,第一关系模型包括:
其中gt表示未来奖励期望,E(Gt|Ss=S)表示未来奖励期望函数表达式,Rt+1表示下一时刻奖励,γRt+2表示再下一时刻奖励,表示未来奖励期望运算方程式,h表示时间序列;
vπ(s)=Eπ(gt|St=s)
其中,Vπ(s)表示车辆姿态值函数,gt表示未来奖励期望,St表示当前车辆姿态变量,s表示当前车辆实际姿态数据,St=s表示当前车辆姿态为s,Eπ(gt|St=s)表示在控制策略π下当前车辆姿态值函数;
qπ(s,a)=Eπ(gt|St=s,At=a)
其中,qπ(s,a)表示控制器的动作值函数,gt表示未来奖励期望,St=s表示当前车辆姿态为s,At=a表示当前动作,在这里指减振器阻尼力控制指令,Eπ(gt|St=s,At=a)表示当前车辆姿态为s,输出阻尼力控制指令为a时的动作值函数;
其中,qπ(si,ai)表示控制器的减振控制指令值函数,si表示车辆姿态,ai表示给出的减振控制指令,R表示当前车辆姿态下输出减振控制指令的奖励值,表示在ai指令下出现状态si的奖励值,γ表示平衡因子取值范围为[0,1],表示ai减振控制指令下,由si到sj的状态转移概率矩阵,π(ai|s)表示当前控制策略下给出减振控制指令的ai的概率,π(aj|s)表示当前控制策略下给出减振控制指令的aj的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中车工业研究院有限公司,未经中车工业研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010424524.9/1.html,转载请声明来源钻瓜专利网。





