[发明专利]车辆调度方法、装置、计算机设备和计算机可读存储介质有效

申请号：	202010542775.7	申请日：	2020-06-15
公开（公告）号：	CN111898310B	公开（公告）日：	2023-08-04
发明（设计）人：	施俊庆;赵雅辉;孟国连;陈林武;夏顺娅	申请（专利权）人：	浙江师范大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06F17/16;G06Q10/0631;G06Q50/30
代理公司：	杭州华进联浙知识产权代理有限公司 33250	代理人：	陈涵
地址：	321004 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	车辆调度方法装置计算机设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种车辆调度方法，其特征在于，所述方法包括：

获取与车站衔接的专用线条数信息；

根据所述专用线条数信息构建强化学习模型；

对所述强化学习模型进行训练，得到强化学习模型的经验值；

根据所述经验值确定车辆调度顺序；

其中，所述根据所述专用线条数信息构建强化学习模型包括：

根据所述专用线条数定义状态空间，所述状态空间用于表示机车当前所在位置以及当前每一所述专用线的送车状态；

定义动作空间，所述动作空间用于表示机车下一时间步前往的专用线；

定义奖励函数，所述奖励函数用于表示所述机车完成所有所述专用线的送车作业后得到的奖励值；

所述对所述强化学习模型进行训练，得到强化学习模型的经验值包括：

获取当前位置，若当前位置为车站位置，且各专用线均未完成取送车作业，则将状态空间设置为初始状态；

根据所述初始状态，得到所有状态动作集合；

根据所述状态动作集合完成所有专用线的送车作业，作为一次迭代过程并计算本次迭代的最终奖励值；

根据所述最终奖励值，得到所述强化学习模型的经验值；

所述根据所述状态动作集合完成所有专用线的送车作业，作为一次迭代过程并计算本次迭代的最终奖励值包括：

根据当前所述状态空间和所述状态动作集合，在多条所述专用线中选择第一专用线并完成送车；

更新所述状态空间，对其余所述专用线进行送车，直至完成所有专用线的送车，计算完成本次迭代所需的实际作业时间；

根据所述实际作业时间、标准作业时间以及所述奖励函数，计算本次迭代的最终奖励值；

所述根据所述最终奖励值，得到所述强化学习模型的经验值包括：

构建Q矩阵，所述Q矩阵用于表示训练过程中得到的经验值；

根据所述最终奖励值和Q矩阵更新规则更新所述Q矩阵，得到所述强化学习模型的经验值；

根据所述最终奖励值和Q矩阵更新规则更新所述Q矩阵，得到所述强化学习模型的经验值包括：

根据本次迭代的最终奖励值与本次迭代前所述Q矩阵中的经验值更新所述Q矩阵，并将更新后所述Q矩阵中的经验值作为所述强化学习模型的经验值。

2.根据权利要求1所述的方法，其特征在于，所述定义奖励函数包括：

根据预设调度顺序获取机车作业所需的标准作业时间；

根据实际作业时间与所述标准作业时间，定义所述奖励函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江师范大学，未经浙江师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010542775.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载