[发明专利]一种基于强化学习的公交车辆排班方法在审

专利信息
申请号: 202210431112.7 申请日: 2022-04-22
公开(公告)号: CN114819617A 公开(公告)日: 2022-07-29
发明(设计)人: 左兴权;刘英卓;黄海;艾冠群 申请(专利权)人: 北京邮电大学
主分类号: G06Q10/06 分类号: G06Q10/06;G06Q50/30
代理公司: 北京永创新实专利事务所 11121 代理人: 易卜
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 公交 车辆 排班 方法
【权利要求书】:

1.一种基于强化学习的公交车辆排班方法,其特征在于:

(1)对于给定的公交线路的发车时刻表,利用强化学习进行车辆排班;将公交车辆排班问题建模为马尔可夫决策过程,发车时刻表中每个时刻点作为决策点;对于每个时刻点,由智能体根据控制点中车辆的信息,选取一个车辆在该时刻点从该控制点发出,从而覆盖该时刻点;利用智能体对发车时刻表中的所有时刻点进行逐点决策,使得时刻表中每个时刻都有车辆发出,最终形成车辆排班方案;

(2)车辆排班问题的马尔可夫决策过程模型包括状态、动作和奖励;

状态为智能体的输入,包括:当前时刻点所有可选车辆的信息;动作为智能体的输出,即:选取控制点中的某一车辆在该时刻点发出;奖励包括:车辆数目和车辆等待时间;

(3)构建公交车辆排班仿真环境,智能体通过与仿真环境的交互,借助强化学习算法来获取最优策略。

2.根据权利要求1所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述排班仿真环境为车辆运营过程的模拟;

仿真环境中包含运营时间内任一时刻的车辆行驶信息,具体包括车辆位置、行驶方向、运行时间、工作时间和休息时间,这些信息作为智能体的输入,智能体根据输入产生输出的动作,即选择发出的车辆,动作作用于仿真环境来更新车辆行驶信息;通过智能体与环境的交互,实现车辆运营过程的模拟。

3.根据权利要求1所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述马尔可夫决策过程,其特征在于:

1)状态:对于当前控制点内每个可供选择的车辆,为其构建一个车辆表示向量,该向量包含该车辆与排班相关的行驶信息;可供选择的车辆指当前时刻停靠在该控制点内的可发车的车辆以及还未发出的车辆;由所有可供选择车辆的表示向量构成的矩阵,作为状态;

2)动作:对于每个决策点,智能体的动作为选取一个可供选择的车辆从该时刻表中发出;动作空间中包括所有的可供选择的车辆,其中还未发出的车辆表示为一辆车;

3)奖励:包括主线奖励和支线奖励;根据车辆排班问题的优化目标来构造奖励函数,奖励需要考虑的因素包括:车辆数目,执行奇数行程的车辆数和时刻点覆盖情况。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210431112.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top