[发明专利]一种交通信号优化控制方法有效
申请号: | 202210805314.3 | 申请日: | 2022-07-08 |
公开(公告)号: | CN115171408B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 张惠臻;陈友庆;刘明蕾;潘玉彪;王成;王靖;缑锦 | 申请(专利权)人: | 华侨大学 |
主分类号: | G08G1/085 | 分类号: | G08G1/085;G08G1/08;G08G1/01;G08G1/052;G08G1/065 |
代理公司: | 泉州市文华专利代理有限公司 35205 | 代理人: | 陈雪莹 |
地址: | 362000 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交通信号 优化 控制 方法 | ||
1.一种交通信号优化控制方法,其特征在于:所述方法包括:
步骤S1、获取交叉路口的各个进车道的车辆信息,基于离散交通编码的状态描述方法,构建车辆位置矩阵和车辆速度矩阵;所述步骤S1具体为:
步骤S11、获取交叉口各个进车道方向的车道数,并将距离停车线前的一定距离划定为观测区域,进入步骤S12;
步骤S12、以固定的长度划分观测区域内每个车道的长度,从而构成同等规格的元胞,然后在元胞中以整型数值表示车辆的位置信息,构成车辆位置矩阵,进入步骤S13;
步骤S13、在获取每个进车道方向的车辆位置矩阵后,根据道路上的车辆速度构建与车辆位置矩阵同规模的车辆速度矩阵,速度矩阵的数值表示为元胞内车辆的实时速度;
步骤S2、获取原始固定配时方案下交叉口的交通信号灯动作及相位序列,设定信号灯的动作集合,进行智能体对交通信号的协调调度;所述步骤S2具体为:
步骤S21、获取原始固定配时方案下交叉口的交通信号灯动作及相位序列,进入步骤S22;
步骤S22、设定信号灯智能体的动作集合为A={0,1},信号灯智能体根据当前状态选择最优的动作at∈A,当at=0时,信号灯保持当前相位不变;当at=1时,信号灯切换至相位序列中当前相位的下一个相位,进入步骤S23;
步骤S23、定义最短相位持续时间为tmin,最长相位持续时间为tmax,同时,相位发生切换时,绿灯切换至红灯间隙需要设置一定时长的黄灯时间,进入步骤S24;
步骤S24、基于以上相位序列和动作集合,信号灯智能体对交通信号进行协调调度;
步骤S3、依据步骤S1、步骤S2所构建的路网环境和动作设置方法进行仿真,获取固定配时方案的平均排队车辆数目,并构建奖励函数;所述步骤S3具体为:
步骤S31、通过仿真实验得出固定配时方案下的平均排队车辆数queueVehiclesfixed,在完整的仿真过程下,实时获取的排队车辆数为各车道满足排队车速的车辆数之和,所述实时获取的排队车辆数的计算公式如下:
其中,Queue_average表示实时获取的排队车辆数,nlane表示为交叉口中所有进车道的数量,Queue_lanei表示为第i条进车道的实时获取的排队车辆数;
步骤S32、记录强化学习模型训练过程中每个仿真步长的全局平均速度,所述全局平均速度的计算公式如下:
其中,Speed_average表示全局平均速度,nveh表示为全局所有车辆的数量,Speed_vehi表示为车辆i的实时速度;
步骤S33、定义当前时间步全局平均速度与上一时间步全局平均速度的差作为reward1;计算实时获取的排队车辆数Queue_average,利用固定配时方案下的平均排队车辆数queueVehiclesfixed的rate倍与Queue_average做差得出reward2;
步骤S34、基于以上全局平均速度和实时获取的排队车辆数两部分的交通要素,并根据固定配时方案下的平均排队车辆数设定奖励函数的基线l,以此强调所采取动作的优劣,并对reward1和reward2分配不同的权重k1和k2,具体公式如下:
其中,r为奖励值,Speed_averagecurrent表示当前时间步全局平均速度,Speed_averagepre表示上一时间步全局平均速度,Queue_average表示实时获取的排队车辆数,queueVehiclesfixed表示固定配时方案下的平均排队车辆数,rate表示奖励基线排队车辆数比率;
步骤S35、通过上述的参数设定方式构建奖励,算法在对模型进行训练时依据奖励值对动作进行评价;
步骤S4、创建基于自适应权重均值的深度双Q网络模型,结合奖励值对网络模型参数进行更新,得到最终的网络模型,并利用所述网络模型优化控制交通信号;所述步骤S4进一步包括:
步骤S41、利用传统DDQN具有评价网络和目标网络的结构作为模型的基础,传统DDQN的误差函数如下:
Loss=(yDDQN-Q(s,a;θ))2
其中,s表示为当前时刻的状态,a表示当前时刻选择的动作,r表示当前时刻所获得的奖励,γ表示折扣系数,s'表示下一时刻的状态,a'表示下一时刻选择的动作,au表示为在下一时刻动作集合中评价值最高的动作,θ表示评价网络参数,θ-表示目标网络参数,表示目标网络对于(s',au)的评价,Q(s,a;θ)表示评价网络对于(s,a)的评价,yDDQN表示DDQN算法的时序差分目标值;
在DDQN的网络结构上,利用原有的评价网络产生状态s'下具有最大动作值的动作a*和具有最小动作值的动作aL,而目标网络则用于评估a*和aL的动作值再求差后得出绝对值,通过所构成绝对值与常数作比值计算生成权重β,之后进入步骤S42;
步骤S42、在每一个时间步所记录下的评价网络和目标网络的网络参数,在两个网络计算状态s'下a*和aL的动作值时利用相邻K个网络参数分别进行评估,最终生成目标函数时采用K个评估值进行评价网络和目标网络均值和的计算,完成后进入步骤S43;
步骤S43、将进行平均网络估值计算的个数K值设定为从Kmax逐渐减至Kmin的计算方式,同时,将用于计算权重的超参数C经由神经网络进行全连接层的计算,根据先前存储的Q和网络参数计算的Q(s′,a*;θ)和作为全连接层的输入从而拟合出数值,完成后进入步骤S44;
步骤S44、最后,在计算时序差分目标函数yAWA-DDQN时分配给评价网络的权重为β,分配给目标网络的权重为(1-β),通过以上分配的权重进行目标值的计算,最终再由误差函数进行网络参数更新,计算公式如下:
其中,r表示当前时刻所获得的奖励值,β为目标函数分配评价网络的权重,γ表示折扣系数,K为目标函数使用的网络参数个数,a*为s'状态评价网络的最优动作,aL为s'状态评价网络的最差动作,θk为第k个评价网络的参数,为第k个目标网络的参数,Kmax为设定K值的最大值,Kmin为设定K值的最小值,global_step为全局的训练步长,λ为K值的递减系数,yAWA-DDQN为自适应的交通信号控制方法的时序差分目标值,C为步骤43中拟合得到的数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210805314.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微创持针器
- 下一篇:无人机机库的自动居中装置