[发明专利]一种基于深度强化学习的重联-动车组双弓协同控制方法在审

申请号：	202310043183.4	申请日：	2023-01-29
公开（公告）号：	CN116027667A	公开（公告）日：	2023-04-28
发明（设计）人：	刘志刚;王惠;韩志伟	申请（专利权）人：	西南交通大学
主分类号：	G05B13/04	分类号：	G05B13/04;B60L5/32
代理公司：	成都信博专利代理有限责任公司 51200	代理人：	秦立飞
地址：	610031 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习车组协同控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度强化学习的重联‑动车组双弓协同控制方法，具体为：信息采集单元获取受电弓状态信息、列车运行信息；建立控制器控制动作与接触网交互样本数据集；使用综合奖励约束持续平稳的行为策略；为量化前弓控制动作引发的接触网波动传播对后弓的影响，使用奖励传播通道建立双弓交互机制；基于所建立的交互样本数据集，利用多智能体深度强化学习网络学习最优行为策略；根据最优行为策略作为控制器，将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。本发明能有效对重联‑动车组前后弓的精准、提前控制，保证受电弓和接触网的良好接触，提升列车的受流质量，降低后弓的离线率；降低接触部件的磨损、提升服役寿命。

技术领域

本发明属于高速铁路受电弓的智能控制技术领域，尤其涉及一种基于深度强化学习的重联-动车组双弓协同控制方法。

背景技术

高速铁路的快速发展，对牵引供电系统的运行安全性提出了更高的要求。随着我国铁路往重载化和高速化方向发展，受电弓与接触网系统的耦合性能随着振动加剧现象日益恶化。为了增加运输能力，两个动车组经常串联组成重联-动车组。然而，由于单弓的电流容量限制，采用双受电弓同时收集电流。在这种情况下，后弓受到源自前弓并通过接触网传输的波动干扰。过大的接触力会导致受电弓滑板和接触线产生额外的应力和磨损，并降低系统的预期寿命。接触力不足会增加电弧发生的可能性，这可能会烧毁接触表面并导致电力传输问题。降低接触力波动不仅可以保证受电弓收集器和接触线之间良好的接触质量,还减少接触导线的疲劳失效和接触表面的磨损。与优化受电弓悬架系统或重构接触网所需要的昂贵成本相比，主动控制受电弓是更有价值和有效的选择。

发明内容

为实现对重联-动车组进行协同控制，避免接触线和受电弓碳滑板过度磨损，提高列车受流质量，保障列车安全。本发明提供一种基于深度强化学习的重联-动车组双弓协同控制方法。

本发明的一种基于深度强化学习的重联-动车组双弓协同控制方法，控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元；供气源连接气囊用于提供稳定气压，精密调压阀用于精确控制气囊压强，控制单元连接精密调压阀用于输出控制信号，信息采集单元用于采集控制器决策所用信息。控制方法具体包括以下步骤：

步骤1：信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。

步骤2：建立控制器控制动作与接触网交互样本数据集。

步骤3：基于步骤2所建立的交互样本数据集，采用深度强化学习网络学习最优行为策略。

步骤4：根据步骤3的最优行为策略作为控制器，将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。

进一步的，步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向；列车运行信息包括列车运行速度。

进一步的，步骤2具体为：

步骤21：定义多智能体深度强化学习部分可观马尔可夫决策环境关键要素：(N,S,O,A,R,T,γ)；其中γ表示奖励的折扣系数，N＝1,2,...,n是智能体的数量；还包括观察空间O，状态空间S，动作空间A、奖励函数R和转移函数T。

(1)观察空间：观察空间是智能体能够观察到的状态信息，其表示为：

其中，d_ph,v_ph,a_ph表示受电弓升弓高度、弓头垂向速度、弓头垂向加速度，v_train表示列车运行信息。