[发明专利]一种基于深度强化学习的多乘客动态车辆路径优化方法有效

申请号：	202110478381.4	申请日：	2021-04-30
公开（公告）号：	CN113189998B	公开（公告）日：	2023-04-18
发明（设计）人：	刘玮;甘陈峰;王宁	申请（专利权）人：	武汉工程大学
主分类号：	G05D1/02	分类号：	G05D1/02;G06Q10/047;G06Q50/26;G06N3/09;G06N3/096
代理公司：	湖北武汉永嘉专利代理有限公司 42102	代理人：	唐万荣
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习乘客动态车辆路径优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于深度强化学习的多乘客动态车辆路径优化方法，针对大量乘客的动态巴士路线规划的问题，使用深度强化学习中的神经网络DQN代替表格数据存储方式，解决了维度爆炸的缺陷，实现了在开放环境下优化大量乘客的浮动巴士路径的功能。本发明满足了巴士运行动态路线变化的需求，为管理者进行应急处置、应急决策提供了技术支撑。本发明通过模拟乘客分布对现实的巴士规划做出参考，提高了城市规划效率。

技术领域

本发明属于智能交通技术领域，具体涉及一种基于深度强化学习的多乘客动态车辆路径优化方法。

背景技术

巴士系统是城市交通系统重要的一环，结合自适应系统的研究，创建动态、智能的巴士系统提高人群的出行效率。浮动巴士系统是以一种典型的以人为中心(AutonomousHuman Adaptive Systems，AHASs)的自适应系统。浮动巴士系统中，以巴士为载体，以人为核心，使用软件或算法为主导。系统的浮动性来自于系统所处的动态，开放环境，例如道路环境的变化，天气的影响和突发状况等。浮动巴士系统是AHASs的实现，提高质量，增加效率，降低成本等根本需求，在该系统以人为中心的核心下，转化成了提高巴士运输效率，降低乘客等待时间，优化线路等需求。

现有的智能巴士领域研究在优化线路、降低能耗和减少乘客等待时间三个方面有一定的进展，但针对较大人流量下的浮动巴士路径优化问题少有涉足，现实场景中的乘客运输除了环境持续变化之外，往往存在通行人数远超过模拟案例的情况。

发明内容

本发明要解决的技术问题是：提供一种基于深度强化学习的多乘客动态车辆路径优化方法，用于优化大人流量下的浮动巴士路径。

本发明为解决上述技术问题所采取的技术方案为：一种基于深度强化学习的多乘客动态车辆路径优化方法，包括以下步骤：

S1：构建车辆运行的状态动作空间；

S2：以车辆作为强化学习的主体，根据不同情况设定不同的奖励值和惩罚值；

S3：搭建具有经验回放机制的DQN算法，建立DQN深度神经网络，并训练车辆让实际Q值趋近目标Q值；

S4：进行监督学习，通过确定损失函数、梯度获得最优的动态车辆路径。

按上述方案，所述的步骤S1中，具体步骤为：设车辆的通行范围在道路的起点和终点之间；在车辆的通行范围内设有车站、特殊区域、信号灯；车站为行人的上下车地点，车站带有停车属性；行人为参与交通的实体，分布在车站的附近，行人分别带有不同的通行计划属性；特殊区域分布在道路的两旁，车辆在经过特殊区域时进行减速操作；信号灯用于控制交通。

进一步的，所述的步骤S2中，具体步骤为：

设参与学习的车辆的状态为S，车辆在状态S下的动作为A，对车辆的动作的奖励或惩罚的值为R，车辆的状态发生改变的状态转移概率为P；定义四元组A，S，R，P和奖惩规则如下：

S＝特殊区域且红灯，A＝减速，R＝-3；

S＝普通区域，A＝正常速度，R＝-1；

S＝终点，A＝停止，R＝10；

S＝乘客上车或下车，A＝停止，R＝1。

进一步的，所述的步骤S3中，具体步骤为：

S31：设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a)，在状态s下通过动作a转移到状态s′的转移概率为通过动作a从状态s转移到状态s′获得的奖励为设折扣值为γ，折扣值越大表示越考虑未来的价值累计，折扣值为零表示只看当前步骤的奖励积累；建立状态s下的状态价值函数V^π(s)为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉工程大学，未经武汉工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110478381.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的多乘客动态车辆路径优化方法有效

专利文献下载