[发明专利]一种基于强化学习的公交车辆排班方法在审
| 申请号: | 202210431112.7 | 申请日: | 2022-04-22 |
| 公开(公告)号: | CN114819617A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 左兴权;刘英卓;黄海;艾冠群 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/30 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 易卜 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 公交 车辆 排班 方法 | ||
1.一种基于强化学习的公交车辆排班方法,其特征在于:
(1)对于给定的公交线路的发车时刻表,利用强化学习进行车辆排班;将公交车辆排班问题建模为马尔可夫决策过程,发车时刻表中每个时刻点作为决策点;对于每个时刻点,由智能体根据控制点中车辆的信息,选取一个车辆在该时刻点从该控制点发出,从而覆盖该时刻点;利用智能体对发车时刻表中的所有时刻点进行逐点决策,使得时刻表中每个时刻都有车辆发出,最终形成车辆排班方案;
(2)车辆排班问题的马尔可夫决策过程模型包括状态、动作和奖励;
状态为智能体的输入,包括:当前时刻点所有可选车辆的信息;动作为智能体的输出,即:选取控制点中的某一车辆在该时刻点发出;奖励包括:车辆数目和车辆等待时间;
(3)构建公交车辆排班仿真环境,智能体通过与仿真环境的交互,借助强化学习算法来获取最优策略。
2.根据权利要求1所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述排班仿真环境为车辆运营过程的模拟;
仿真环境中包含运营时间内任一时刻的车辆行驶信息,具体包括车辆位置、行驶方向、运行时间、工作时间和休息时间,这些信息作为智能体的输入,智能体根据输入产生输出的动作,即选择发出的车辆,动作作用于仿真环境来更新车辆行驶信息;通过智能体与环境的交互,实现车辆运营过程的模拟。
3.根据权利要求1所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述马尔可夫决策过程,其特征在于:
1)状态:对于当前控制点内每个可供选择的车辆,为其构建一个车辆表示向量,该向量包含该车辆与排班相关的行驶信息;可供选择的车辆指当前时刻停靠在该控制点内的可发车的车辆以及还未发出的车辆;由所有可供选择车辆的表示向量构成的矩阵,作为状态;
2)动作:对于每个决策点,智能体的动作为选取一个可供选择的车辆从该时刻表中发出;动作空间中包括所有的可供选择的车辆,其中还未发出的车辆表示为一辆车;
3)奖励:包括主线奖励和支线奖励;根据车辆排班问题的优化目标来构造奖励函数,奖励需要考虑的因素包括:车辆数目,执行奇数行程的车辆数和时刻点覆盖情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210431112.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





