[发明专利]一种基于强化学习的公交车辆排班方法在审

申请号：	202210431112.7	申请日：	2022-04-22
公开（公告）号：	CN114819617A	公开（公告）日：	2022-07-29
发明（设计）人：	左兴权;刘英卓;黄海;艾冠群	申请（专利权）人：	北京邮电大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06Q50/30
代理公司：	北京永创新实专利事务所 11121	代理人：	易卜
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习公交车辆排班方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的公交车辆排班方法，其特征在于：

(1)对于给定的公交线路的发车时刻表，利用强化学习进行车辆排班；将公交车辆排班问题建模为马尔可夫决策过程，发车时刻表中每个时刻点作为决策点；对于每个时刻点，由智能体根据控制点中车辆的信息，选取一个车辆在该时刻点从该控制点发出，从而覆盖该时刻点；利用智能体对发车时刻表中的所有时刻点进行逐点决策，使得时刻表中每个时刻都有车辆发出，最终形成车辆排班方案；

(2)车辆排班问题的马尔可夫决策过程模型包括状态、动作和奖励；

状态为智能体的输入，包括：当前时刻点所有可选车辆的信息；动作为智能体的输出，即：选取控制点中的某一车辆在该时刻点发出；奖励包括：车辆数目和车辆等待时间；

(3)构建公交车辆排班仿真环境，智能体通过与仿真环境的交互，借助强化学习算法来获取最优策略。

2.根据权利要求1所述的一种基于强化学习的公交车辆排班方法，其特征在于，所述排班仿真环境为车辆运营过程的模拟；

仿真环境中包含运营时间内任一时刻的车辆行驶信息，具体包括车辆位置、行驶方向、运行时间、工作时间和休息时间，这些信息作为智能体的输入，智能体根据输入产生输出的动作，即选择发出的车辆，动作作用于仿真环境来更新车辆行驶信息；通过智能体与环境的交互，实现车辆运营过程的模拟。

3.根据权利要求1所述的一种基于强化学习的公交车辆排班方法，其特征在于，所述马尔可夫决策过程，其特征在于：

1)状态：对于当前控制点内每个可供选择的车辆，为其构建一个车辆表示向量，该向量包含该车辆与排班相关的行驶信息；可供选择的车辆指当前时刻停靠在该控制点内的可发车的车辆以及还未发出的车辆；由所有可供选择车辆的表示向量构成的矩阵，作为状态；

2)动作：对于每个决策点，智能体的动作为选取一个可供选择的车辆从该时刻表中发出；动作空间中包括所有的可供选择的车辆，其中还未发出的车辆表示为一辆车；

3)奖励：包括主线奖励和支线奖励；根据车辆排班问题的优化目标来构造奖励函数，奖励需要考虑的因素包括：车辆数目，执行奇数行程的车辆数和时刻点覆盖情况。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】