[发明专利]一种基于强化学习的匝道信号控制优化方法和系统在审
| 申请号: | 202110863361.9 | 申请日: | 2021-07-29 |
| 公开(公告)号: | CN113409594A | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 季盛逸;王翔;王喜;董彩银;田文婧;任泽其;张颖欣 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G08G1/07 | 分类号: | G08G1/07;G08G1/08;G08G1/01;G06N20/00 |
| 代理公司: | 苏州见山知识产权代理事务所(特殊普通合伙) 32421 | 代理人: | 袁丽花 |
| 地址: | 215000 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 匝道 信号 控制 优化 方法 系统 | ||
1.一种基于强化学习的匝道信号控制优化方法,其特征在于,包括:
匝道交叉口优化控制步骤,通过单点自适应控制检测道路上的实时交通流,上位机根据所述实时交通流选择匝道信号控制方案,建立SARSA信号控制模型;
模型参数标定步骤,获取车辆跟驰与换道模型,对所述车辆跟驰与换道模型的参数进行标定;
仿真步骤,根据预设的需求训练所述SARSA信号控制模型和标定参数后的车辆跟驰与换道模型,得到优化的匝道信号控制方案。
2.根据权利要求1所述的基于强化学习的匝道信号控制优化方法,其特征在于,
所述建立SARSA信号控制模型,包括:
(1)回合设置:以每一信号周期为一步,以五个周期为一回合;
(2)行为空间建立:周期优化、绿信比优化;
(3)状态空间建立:选信号周期结束时的主线上游车辆数、匝道车辆数、主线下游占有率三个指标构成状态空间,对占有率做离散化处理;
(4)行为选择机制,取消贪婪的探索机制;
(5)奖赏函数:以一周期内路网中车辆平均运行速度为奖赏。
3.根据权利要求1所述的基于强化学习的匝道信号控制优化方法,其特征在于,
利用粒子群算法和NGSIM数据集提供的数据对所述车辆跟驰与换道模型的参数进行标定。
4.根据权利要求3所述的基于强化学习的匝道信号控制优化方法,其特征在于,
所述粒子群算法包括如下步骤:
初始化每个粒子的位置与速度;
计算各粒子适应度;
更新个体最优和群体最优;
更新各个粒子的速度和位置;
判断是否符合终止条件,如果是则结束,如果否则返回计算各粒子适应度的步骤。
5.根据权利要求4所述的基于强化学习的匝道信号控制优化方法,其特征在于,
速度和位置的迭代公式为:
vi(t+1)=ω*vi(t)+c1*rand1()*(pbesti-xi(t))+c2*rand2()*(gbesti-xi(t))
xi(t+1)=xi(t)+vi(t)
式中xi是粒子pi在时刻t的位置,vi是粒子pi位置变化速度,pbesti是第i个粒子迄今为止搜索到的最优位置;gbesti是整个粒子群迄今为止搜索到的最优位置;ω为惯性因子,c1和c2为学习因子,自身认知学习率rand1()和社会认知学习率rand2()。
6.根据权利要求1所述的基于强化学习的匝道信号控制优化方法,其特征在于,
所述车辆跟驰与换道模型综合考虑驾驶者期望提速的动力和前方车辆阻碍形成的阻力。
7.根据权利要求6所述的基于强化学习的匝道信号控制优化方法,其特征在于,
其中,是跟驰车加车速,S是t时刻的车头间距,S*是期望间距,S0是初始车头间距,v0是理想驾驶速度,σ是加速度指数,a是期望最大加速度,b是期望最大减速度,vn(t)是跟驰车t时刻的车速,Δvn(t)是跟驰车与前车t时刻的速度差,sn(t)是t时刻的车头间距。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110863361.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新生儿用多功能护理车
- 下一篇:一种移动式医用新生儿消化疾病用护理救援仓





