[发明专利]一种基于深度强化学习的重联-动车组双弓协同控制方法在审
申请号: | 202310043183.4 | 申请日: | 2023-01-29 |
公开(公告)号: | CN116027667A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 刘志刚;王惠;韩志伟 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;B60L5/32 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 秦立飞 |
地址: | 610031 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 车组 协同 控制 方法 | ||
1.一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息;控制方法具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息;
步骤2:建立控制器控制动作与接触网交互样本数据集;
步骤3:基于步骤2所建立的交互样本数据集,采用深度强化学习网络学习最优行为策略;
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
2.根据权利要求1所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度。
3.根据权利要求2所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤2具体为:
步骤21:定义多智能体深度强化学习部分可观马尔可夫决策环境关键要素:(N,S,O,A,R,T,γ);其中γ表示奖励的折扣系数,N=1,2,...,n是智能体的数量;还包括观察空间O,状态空间S,动作空间A、奖励函数R和转移函数T:
(1)观察空间:观察空间是智能体能够观察到的状态信息,其表示为:
其中,dph,vph,aph表示受电弓升弓高度、弓头垂向速度、弓头垂向加速度,vtrain表示列车运行信息;
(2)状态空间:状态空间包含所有智能体的观察空间,其表示为:
其中,表示第i个智能体在t时间的观察信息,st表示总状态信息;
(3)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中,at表示智能体在t时间的动作,amin表示气囊最小设定气压,amax表示气囊最大设定气压;
(4)奖励函数:考虑到受电弓的优化目标和实际物理约束,在设计受电弓-悬链系统控制器时必须考虑以下因素:
波动损失rfluc:智能体因弓网接触力波动而受到惩罚,该波动损失被定义为实际和参考弓网接触力Frefer之间差异的平方范数;
rfluc=||Fpc(t)-Frefer||2
式中,Fpc(t)表示时刻t的弓网接触力,Frefer表示最优参考接触力;
边界损失rbound:边界损失表示为:
rbound=||at||2
式中,at表示时刻t的受电弓主动控制力;
平滑度损失rsmooth:震荡的控制力会导致受电弓关节磨损,平滑度损失rsmooth表示为:
rsmooth=||at-1-at||2
综合以上损失或奖励,综合奖励函数r(t)用于奖励策略网络向最优策略收敛,其表达式如下:
r(t)=rfluc+cboundrbound+csmoothrsmooth
其中,cbound和csmooth是用于平衡损失的权重系数,根据任务实际情况设置;综合奖励函数r(t)表示在一步状态转移过程中智能体得到的总奖励;
(5)转移函数;转移函数包含智能体进行状态转移的机理过程;在仿真实验中,他表示模型模拟的弓网动力学过程;在半实物实验台实验中,他表示实际受电弓-接触网交互的动力学过程;
步骤22:双弓网系统只能向一个方向移动,所以只有前弓会影响后弓受流,并且其影响可以根据其上下文进行量化;因此,使用奖励传播通道来复合反映代理之间相互作用的效果:
RLP=rLp+discount×rTp
RTp=rTp
其中,rLp表示前弓在当前时间步的实际奖励,RLp表示前弓在当前时间步经过奖励传播加权后的最终奖励;rTp表示在当前时间步后弓的实际奖励,RTp表示在当前时间步后弓的最终奖励;discount参数用于量化前弓对后弓的影响,设置discount=0.25;
步骤23:以运行线路参数和受电弓参数建立虚拟仿真平台生成虚拟仿真样本库;
步骤24:样本获取过程如下:智能体i获得当前时间步状态并生成动作给受电弓气阀板,气阀板执行控制后,深度强化学习网络获得奖励和下一时间步受电弓状态产生样本并存储在数据库中,重复以上步骤直至训练结束;
步骤25:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤24。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310043183.4/1.html,转载请声明来源钻瓜专利网。