[发明专利]一种基于深度强化学习的共享自行车调度方法有效

申请号：	202110744265.2	申请日：	2021-06-30
公开（公告）号：	CN113326993B	公开（公告）日：	2023-06-09
发明（设计）人：	肖峰;涂雯雯	申请（专利权）人：	西南财经大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q10/0631;G06Q50/30;G06F30/15;G06F30/27;G06N3/04;G06N3/092;G06F111/04;G06F111/08;G06F119/12
代理公司：	成都正德明志知识产权代理有限公司 51360	代理人：	张小娟
地址：	611130 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习共享自行车调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度强化学习的共享自行车调度方法，包括以下步骤：S1：划分共享自行车的调度区域，得到调度区域单元，并确定共享自行车的运行环境变量；S2：确定共享自行车的调度变量；S3：构建共享自行车的车辆调度优化模型；S4：基于共享自行车的车辆调度优化模型，利用平均场理论构建共享自行车调度框架，并利用共享自行车调度框架完成共享自行车调度。本发明提出的基于强化学习的共享自行车调度优化方法有利于智能地解决随机和复杂的动态环境下，大规模路网的共享自行车短期和长期调度优化问题。其考虑环境的供需变化和未来时间中调度决策与环境的交互影响，且不需要提前预测需求或进行人工数据处理，不受到需求预测计算效率和准确性的影响。

技术领域

本发明属于车辆调度技术领域，具体涉及一种基于深度强化学习的共享自行车调度方法。

背景技术

在以往研究中，通常解决自行车调度优化问题的方式为，将调度时间划分为不同的时间段，再在每个基于划分的时间段内独立搜索最佳的调度策略。然而，上一个时间段的调度策略将影响下一个以及未来时间段的供需环境。对于基于时间段的孤立策略优化方法，其未考虑未来时间段的供需情况和所实施的策略的造成的影响。则此方法下，此时间段的最佳策略不一定会促使未来时间内产生较高的实际出行量，甚至会造成未来实际出行量较低的情况。因此，采用基于时间段的孤立策略优化方法，并不一定会获得全调度时间的最佳全局策略。

发明内容

本发明的目的是为了解决长期调度过程、动态环境和大规模网络的共享自行车调度问题，提出了一种基于深度强化学习的共享自行车调度方法。

本发明的技术方案是：一种基于深度强化学习的共享自行车调度方法包括以下步骤：

S1：划分共享自行车的调度区域，得到调度区域单元，并确定共享自行车的运行环境变量；

S2：基于调度区域单元，根据共享自行车的运行环境变量，确定共享自行车的调度变量；

S3：根据共享自行车的调度变量，构建共享自行车的车辆调度优化模型；

S4：基于共享自行车的车辆调度优化模型，利用平均场理论构建共享自行车调度框架，并利用共享自行车调度框架完成共享自行车调度。

进一步地，步骤S1中，划分共享自行车的调度区域的具体方法为：将共享自行车的调度区域分割为若干个等边六角形，作为调度区域单元，并定义每个调度区域单元的全局标签变量η⁵、水平方向标签变量m和垂直方向标签变量h，其满足如下关系式：

其中，η⁵∈M′，M′＝{0,1,...,((M+1)²-1)}，M表示调度区域单元的水平方向标签变量或垂直方向标签变量的最大值，M′表示调度区域单元的单元标签集合；

步骤S1中，共享自行车的运行环境变量包括时间变量和城市固定仓库位置集合变量；

时间变量包括时间步变量t、时间步变量集合T和时间步的最大值变量T_max，其中，t∈T，T＝{0,1,...,T_max}；

城市固定仓库位置集合变量包括固定仓库位置集合η^w。