[发明专利]一种基于强化学习的公交车辆排班方法在审

申请号：	202210431112.7	申请日：	2022-04-22
公开（公告）号：	CN114819617A	公开（公告）日：	2022-07-29
发明（设计）人：	左兴权;刘英卓;黄海;艾冠群	申请（专利权）人：	北京邮电大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06Q50/30
代理公司：	北京永创新实专利事务所 11121	代理人：	易卜
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习公交车辆排班方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于强化学习的公交车辆排班方法，属于公交车辆排班领域，具体为：首先、将某条公交线路的车辆排班问题建模为马尔可夫决策过程，其中包括状态，动作、奖励三个要素。将发车时刻表中每个时刻点作为一个决策点，利用强化学习智能体选取当前可用车辆从该时刻点发出，从而覆盖该时刻点。构建公交车辆排班的仿真环境，通过智能体与仿真环境的交互，利用强化学习算法获得智能体的最优策略。然后，利用智能体对发车时刻表中每个时刻点按时间顺序逐点决策，由此得到公交车排班方案。本发明提供了一种公交车辆的在线调度方法，在发生交通拥堵，交通事故等不确定事件的情况下，能保证全部覆盖发车时刻表，且所用车辆数目少。

技术领域

本发明属于公交车辆排班领域，特别涉及一种基于强化学习的公交车辆排班方法。

背景技术

公交车辆排班是提高公交服务质量的关键一环。

目前解决公交车排班问题使用的方法大多是基于精确算法和启发式算法，精确算法虽能求出最优解，但是对于算力要求较高，无法很好的解决比较复杂的公交车辆排班问题；而启发式算法虽能解决一些复杂的问题，且能获得一些不错的排班，但由于缺乏实时决策，导致应对突发情况的能力较差，而且有时无法保证时刻点的全覆盖这一重要要求。

由于现有方法都是每次产生一个完整排班方案的离线调度方法，因此无法在时刻点粒度根据某个时刻点的实时信息进行实时决策。然而，在实际应用场景中，由于城市交通问题的复杂性，交通拥堵，交通事故等不确定事件是一种很常见的现象，在遇到这样的现象时，原有的车辆排班方法往往不能很好地应对。

因此，亟需提出一种能进行实时决策，同时有良好的突发情况应对能力的公交车辆排班方法。

发明内容

针对上述问题，本发明提供一种基于强化学习的公交车辆排班方法，以实现实时决策，同时能应对动态事件并提供保证时刻点全覆盖的优秀排班时刻表。

所述的基于强化学习的公交车辆排班方法，具体步骤如下：

步骤一、对于给定的公交线路的发车时刻表，利用强化学习进行车辆排班(调度)。将公交车辆排班问题看作序列决策过程，发车时刻表中每个时刻点作为决策点。对于每个时刻点，由智能体根据控制点中车辆的信息，选取一个车辆在该时刻点从该控制点发出，从而覆盖该时刻点。利用智能体对发车时刻表中的所有时刻点进行逐点决策，使得时刻表中每个时刻都有车辆发出，最终形成车辆排班方案。

步骤二、将公交车辆排班问题建模为包括状态，动作和奖励三要素的马尔可夫决策过程。

1)状态：对于当前控制点内每个可供选择的车辆，为其构建一个车辆表示向量，该向量包含该车辆与排班相关的行驶信息。可供选择的车辆指当前时刻停靠在该控制点内的可发车的车辆以及还未发出的车辆。由所有可供选择车辆的表示向量构成的矩阵，作为状态。为保证强化学习算法的收敛速度，进一步从行空间和列空间两个角度对状态矩阵进行降维。

对于行空间的降维过程为：首先，逐个判断各车辆是否符合条件约束。其中约束条件是指：在当前发车时刻点，该车是否具备发车条件，即是否满足位置，休息时间和工作时间的约束。然后，将符合条件约束的车辆划分为已发车车辆和未发车车辆，不符合条件约束的车单独分类；最后，在某个发车时刻点符合条件约束的未发车车辆可缩减为一行，而不符合条件约束的车用来填充状态矩阵，保证矩阵的形状不变，因此最终缩减了状态矩阵的行数。

对于列空间降维为：构造更精简的车辆表示向量，来减少状态矩阵的列数。通过分析车辆行驶信息中与排班最相关的信息，挑选出剩余可行驶时间，休息时间，趟次数，剩余可工作时间和车辆类型五项信息。

2)动作：即智能体所选的车辆。

对于符合约束条件且已发车的车辆，直接发出该车辆。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210431112.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种可实现水样与水样分析结果自动匹配的方法及系统
下一篇：发光二极管的键合方法、发光二极管以及发光面板

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的公交车辆排班方法在审

专利文献下载