[发明专利]基于状态和动作价值网络的列车推荐速度曲线生成方法在审
| 申请号: | 202211026308.4 | 申请日: | 2022-08-25 |
| 公开(公告)号: | CN115392122A | 公开(公告)日: | 2022-11-25 |
| 发明(设计)人: | 荀径;陈雅岚;董海荣;陈杰;万欣;赵子枞 | 申请(专利权)人: | 北京交通大学 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/08 |
| 代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 毛燕生 |
| 地址: | 100044 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 状态 动作 价值 网络 列车 推荐 速度 曲线 生成 方法 | ||
1.基于状态和动作价值网络的列车推荐速度曲线生成方法,其特征在于,包括以下步骤:
步骤1:在JavaScript环境下开发DQN,设计各部分组成模块,设置所需的环境参数和性能指标,划分动作、状态空间,设置神经网络的相关参数并开启GPU使用,确定探索策略,输入经验池的变量,DQN的损失函数及辅助模块的结果展示;
步骤2:分析列车运行曲线性能指标设计奖励函数,将奖励函数中的牵引能耗模型构建转换为探索速度面积与平均速度面积差值和惰行工况在全线路的占比问题,共同评估能耗,从而评价动作;
步骤3:对神经网络进行训练,将神经网络拆分为状态价值(sv)网络和动作价值(qv)网络,实际动作价值设置为“状态价值”与“动作价值修正值”加权,根据ε-greedy的探索策略选择输出动作;
步骤4:随着神经网络的训练迭代,模型逐渐朝最优方向收敛,根据训练后期模型的收敛情况建立探索结果与后续训练的概率关系,并在训练完成后输出最优推荐速度曲线。
2.根据权利要求书1所述的基于状态和动作价值网络的列车推荐速度曲线生成方法,其特征在于,所述步骤1的具体步骤如下:
步骤101:在JavaScript环境下开发DQN,构建功能模块:环境模块、奖励模块、神经网络模块、探索模块、经验池模块、训练模块,辅助模块;
步骤102:配置环境模块,分成运行环境静态数据和列车性能固定参数两部分;其中运行环境静态数据包括线路长度、计划运行时间、线路限速、线路坡度及曲线半径,列车性能固定参数包括列车质量、最高时速、基本阻力参数、牵引制动特性;
步骤103:构建奖励模块,奖励值采取百分制,总奖励值为各个指标的奖励根据之和,指标包括牵引能耗、实际运行时间与计划运行时间偏差、精确停车;
步骤104:构建神经网络模块;首先划分动作和状态空间,设置21个动作,其中0~9为不同制动力百分比对应的制动工况,10为惰行工况,11~20为不同牵引力百分比对应的牵引工况,状态每帧包括6个属性分别为当前时间和剩余时间、当前位置和剩余位置、当前速度和剩余超速范围,对输入神经网络的状态数据采用固定比例的归一化处理方法,一次输入5帧状态数据,压扁成一个30维度的特征;
步骤105:其次将神经网络拆分成状态价值网络和动作价值网络,设置神经网络的相关参数:开启GPU,隐藏层激活函数为tanh,输出层使用linear函数激活,优化函数为adam;神经网络采用全连接方式,一个Flatten层,三个隐藏层,Flatten层单元数为30,第一层隐藏层的单元数为40,第二层隐藏层单元数为160,第二层隐藏层单元数为120,输出层为22;
步骤106:设置探索模块,采用ε-greedy的探索策略;从环境模块提取状态输入神经网络,以ε的概率随机选择动作,1-ε的概率执行动作价值最大的动作,模型收敛情况越好,探索概率ε越小;
步骤107:设置经验池模块,将当前状态、奖励、动作、下一状态存入经验池;
步骤108:构建训练模块,随机选取小批次数据训练神经网络;当前状态及动作输入当前值网络获得Q(s,a,θ),奖励和下一状态输入目标值网络获得DQN的损失函数用如下公式表示:
步骤109:构建辅助模块,包括最优列车推荐速度曲线和随探索次数变化的得分趋势图的展示。
3.根据权利要求书2所述的基于状态和动作价值网络的列车推荐速度曲线生成方法,其特征在于,所述步骤2的具体步骤如下:
步骤201:用线路长度与计划运行时间的比值计算平均速度,获得平均速度面积,再计算实际运行速度面积和二者的面积差;
步骤202:记录全程各运行工况的得分情况,其中,惰行工况得最高分1分,巡航工况依据当前加速度:加速度越小得分越高,得分介于0到1之间,其他工况不得分;
步骤203:将实际运行速度面积与平均速度面积的差值和全过程工况的总得分综合,评估奖励函数中的列车牵引能耗水平。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211026308.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:磷光材料的发光波长预测方法及系统
- 下一篇:驱动背板及显示面板





