[发明专利]一种基于强化学习的车辆泊位预测方法在审

申请号：	201910916466.9	申请日：	2019-09-26
公开（公告）号：	CN110619442A	公开（公告）日：	2019-12-27
发明（设计）人：	岑跃峰;张晨光;岑岗;马伟锋;程志刚;徐昶;周闻;王佳晨;蔡永平;张宇来	申请（专利权）人：	浙江科技学院
主分类号：	G06Q10/04	分类号：	G06Q10/04;G08G1/14;G06N3/04;G06N3/08
代理公司：	33294 杭州万合知识产权代理事务所(特殊普通合伙)	代理人：	丁海华
地址：	310012 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	停车场泊位预测模型预测车辆泊位强化学习数据集中停车泊位测试集训练集泊位停车场归一化处理目标停车场获取目标理论构建数据集按下验证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的车辆泊位预测方法，其特征在于：按下述步骤进行：

a、获取目标停车场的停车泊位历史数，并对所述停车泊位历史数进行归一化处理形成数据集，以数据集中60-90％的数据作为训练集，以数据集中10-40％的数据作为测试集；

b、基于强化学习理论构建停车场泊位预测模型，将训练集输入至停车场泊位预测模型进行训练；

c、利用训练后的停车场泊位预测模型进行目标停车场的车辆泊位预测，以测试集验证停车场泊位预测模型的预测准确性。

2.根据权利要求1所述的基于强化学习的车辆泊位预测方法，其特征在于：所述步骤a中停车泊位历史数为某一时间段的目标停车场的泊位数，对所述停车泊位历史数进行归一化处理，将其压缩为0到1之间的实数，其归一化处理的公式如下：

其中，d为归一化处理之前的原始数据，d^*为归一化处理后的数据，d_max为原始数据各字段中数据最大值，d_min为原始数据各字段中数据最小值。

3.根据权利要求2所述的基于强化学习的车辆泊位预测方法，其特征在于：所述停车场泊位预测模型采用基于Actor-Critic架构的PPO算法；所述Actor-Critic架构包括Actor网络和Critic网络；所述Critic网络通过值函数反馈给Actor网络用于反馈训练的好坏；

Critic网络的计算过程如下：

h_c,1＝relu(x_j*w_c,1+b_c,1)

h_c,2＝relu(h_c,1*w_c,2+b_c,2)

h_c,5＝relu(h_c,4*w_c,5+b_c,5)

L_critic_j＝relu(h_c,5*w_c,out+b_c,out)

Actor网络的计算过程如下：

h_a,1＝relu(x_j*w_a,1+b_a,1)

h_a,2＝relu(h_a,1*w_a,2+b_a,2)

h_a,5＝relu(h_a,4*w_a,5+b_a,5)

L_actor_j＝relu(h_a,5*w_a,out+b_a,out)

其中，x_j为输入序列第j个数据，w_c,i和b_c,i分别是Critic网络的权重和偏置，i＝1,2,...,5，w_c,out和b_c,out相应的为Critic网络输出层的权重和偏值，L_critic_j作为判定Actor网络训练好坏的值函数，w_a,i和b_a,i分别是Actor网络的权重和偏置，i＝1,2,...,5，w_a,out和b_a,out相应的为Critic网络输出层的权重和偏值；

选择relu为激活函数，L_actor_j为模型预测输出，r_t(θ)为当前t时刻模型新旧策略的比值，在此处该新旧策略即为模型训练前后的状态值，θ表示策略参数更新的向量，表征一种映射关系，为策略更新的优势，ε为PPO算法的超参数，ε取均值0.2，L^CLIP(θ)表示通过截断概率比，将概率比r_t(θ)处于区间[1-ε,1+ε]之外的激励消除，最后取截断目标和未截断目标中的最小值的均值，并将该均值的最小值作为模型损失函数loss。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江科技学院，未经浙江科技学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910916466.9/1.html，转载请声明来源钻瓜专利网。

上一篇：基于领导者的GA-PSO的软时间窗车辆路径优化方法
下一篇：一种基于TSC曲线的有源配电网供电能力计算方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的车辆泊位预测方法在审

专利文献下载