[发明专利]一种基于深度强化学习的共享自行车调度方法有效
申请号: | 202110744265.2 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113326993B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 肖峰;涂雯雯 | 申请(专利权)人: | 西南财经大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/0631;G06Q50/30;G06F30/15;G06F30/27;G06N3/04;G06N3/092;G06F111/04;G06F111/08;G06F119/12 |
代理公司: | 成都正德明志知识产权代理有限公司 51360 | 代理人: | 张小娟 |
地址: | 611130 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 共享 自行车 调度 方法 | ||
本发明公开了一种基于深度强化学习的共享自行车调度方法,包括以下步骤:S1:划分共享自行车的调度区域,得到调度区域单元,并确定共享自行车的运行环境变量;S2:确定共享自行车的调度变量;S3:构建共享自行车的车辆调度优化模型;S4:基于共享自行车的车辆调度优化模型,利用平均场理论构建共享自行车调度框架,并利用共享自行车调度框架完成共享自行车调度。本发明提出的基于强化学习的共享自行车调度优化方法有利于智能地解决随机和复杂的动态环境下,大规模路网的共享自行车短期和长期调度优化问题。其考虑环境的供需变化和未来时间中调度决策与环境的交互影响,且不需要提前预测需求或进行人工数据处理,不受到需求预测计算效率和准确性的影响。
技术领域
本发明属于车辆调度技术领域,具体涉及一种基于深度强化学习的共享自行车调度方法。
背景技术
在以往研究中,通常解决自行车调度优化问题的方式为,将调度时间划分为不同的时间段,再在每个基于划分的时间段内独立搜索最佳的调度策略。然而,上一个时间段的调度策略将影响下一个以及未来时间段的供需环境。对于基于时间段的孤立策略优化方法,其未考虑未来时间段的供需情况和所实施的策略的造成的影响。则此方法下,此时间段的最佳策略不一定会促使未来时间内产生较高的实际出行量,甚至会造成未来实际出行量较低的情况。因此,采用基于时间段的孤立策略优化方法,并不一定会获得全调度时间的最佳全局策略。
发明内容
本发明的目的是为了解决长期调度过程、动态环境和大规模网络的共享自行车调度问题,提出了一种基于深度强化学习的共享自行车调度方法。
本发明的技术方案是:一种基于深度强化学习的共享自行车调度方法包括以下步骤:
S1:划分共享自行车的调度区域,得到调度区域单元,并确定共享自行车的运行环境变量;
S2:基于调度区域单元,根据共享自行车的运行环境变量,确定共享自行车的调度变量;
S3:根据共享自行车的调度变量,构建共享自行车的车辆调度优化模型;
S4:基于共享自行车的车辆调度优化模型,利用平均场理论构建共享自行车调度框架,并利用共享自行车调度框架完成共享自行车调度。
进一步地,步骤S1中,划分共享自行车的调度区域的具体方法为:将共享自行车的调度区域分割为若干个等边六角形,作为调度区域单元,并定义每个调度区域单元的全局标签变量η5、水平方向标签变量m和垂直方向标签变量h,其满足如下关系式:
其中,η5∈M′,M′={0,1,...,((M+1)2-1)},M表示调度区域单元的水平方向标签变量或垂直方向标签变量的最大值,M′表示调度区域单元的单元标签集合;
步骤S1中,共享自行车的运行环境变量包括时间变量和城市固定仓库位置集合变量;
时间变量包括时间步变量t、时间步变量集合T和时间步的最大值变量Tmax,其中,t∈T,T={0,1,...,Tmax};
城市固定仓库位置集合变量包括固定仓库位置集合ηw。
进一步地,步骤S2中,共享自行车的调度变量包括策略执行状态变量类、供需环境变量类、骑行出行变量类和调度策略变量类;
策略执行状态变量类包括策略执行状态变量tr,其中,tr∈{0,1};
在时间步t时,供需环境变量类包括调度区域单元的共享自行车出行需求变量策略执行状态变量tr=0时调度区域单元的共享自行车供应量变量和策略执行状态变量tr=1时调度区域单元的共享自行车供应量变量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南财经大学,未经西南财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110744265.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种离合装置
- 下一篇:一种耳机控制方法、电子设备及耳机
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理