[发明专利]一种快速道路孤立瓶颈路段的可变限速控制方法在审

专利信息
申请号: 201610409673.1 申请日: 2016-06-13
公开(公告)号: CN106128095A 公开(公告)日: 2016-11-16
发明(设计)人: 李志斌;刘攀;王炜;徐铖铖 申请(专利权)人: 东南大学
主分类号: G08G1/01 分类号: G08G1/01;G08G1/09
代理公司: 江苏永衡昭辉律师事务所 32250 代理人: 王斌
地址: 210096*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种快速道路孤立瓶颈路段的可变限速控制方法。确定强化学习算法的关键参数,智能体依据交通流数据感知交通运行状态,针对当前状态选择一个限速值动作并计算其状态转移回报值,遍历所有状态‑动作组合直到回报值均收敛,智能体离线习得不同交通流状态下的最优限速值动作。智能体依据实时交通流数据自动选择发布当前状态对应的最优限速值,将交通流数据和限速值实时传回控制中心持续学习。本发明弥补了可变限速控制中交通流状态和限速值间关系确定的随意性,通过智能体挖掘可变限速控制方法对交通安全与通行效率的影响规律,根据实际效果对最优可变限速控制方法进行反馈调节,有效提升了孤立瓶颈路段的交通安全。
搜索关键词: 一种 快速 道路 孤立 瓶颈 路段 可变 限速 控制 方法
【主权项】:
一种快速道路孤立瓶颈路段的可变限速控制方法,其特征是包括步骤:1)确定快速道路孤立瓶颈路段及其上下游范围,以合理间距设置交通流检测器周期性检测孤立瓶颈区域及其上下游交通流数据,在瓶颈路段上游设置可变限速指示牌;2)确定强化学习算法中的交通流状态集和动作集,步骤包括:201)确定强化学习算法中的交通流状态集,由于需要了解孤立瓶颈路段及其上下游交通流信息,因此交通流状态集中的每个元素是一个状态向量S,状态向量中记录了瓶颈路段及其上下游的交通流状态,依据所检测到的历史交通流数据绘制流量‑速度分布图确定瓶颈交通流关键密度,在关键密度附近以1.25‑2.5veh/m/ln划分为一个交通流状态,在自由流和拥堵流中每隔5veh/m/ln划分为一个交通流状态;202)选定不同的可变限速值组成强化学习算法中的动作集,动作集中的元素应满足两个条件:处于路段允许的最高和最低限速值之间,同时考虑到驾驶员对限速值的接受情况,发布的限速值应为5或10的整数倍;3)基于可变限速控制降低追尾事故风险的效果构建强化学习中的回报函数,步骤包括:301)基于瓶颈处交通流检测器检测到的交通流数据,依据如下公式计算追尾事故风险指数RCRI:<mrow><mi>R</mi><mi>C</mi><mi>R</mi><mi>I</mi><mo>=</mo><mfrac><mrow><mo>&lsqb;</mo><msub><mover><mi>V</mi><mo>&OverBar;</mo></mover><mi>U</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mi>&Delta;</mi><mi>T</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msub><mover><mi>V</mi><mo>&OverBar;</mo></mover><mi>D</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mi>&Delta;</mi><mi>T</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>&rsqb;</mo><mo>&CenterDot;</mo><msub><mover><mi>O</mi><mo>&OverBar;</mo></mover><mi>U</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mi>&Delta;</mi><mi>T</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>-</mo><msub><mover><mi>O</mi><mo>&OverBar;</mo></mover><mi>U</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mi>&Delta;</mi><mi>T</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac></mrow>其中,为时间Δt内上游检测器位置平均速度,为时间Δt内下游检测器位置平均速度,为时间Δt内上游检测器位置平均占有率,分别为第j个时间Δt内上下游检测器位置车道m平均速度和上游检测器位置车道m的平均占有率;J为一个时间段内集计交通流数据个数(J=ΔT/Δt,Δt=30s);M为路段断面车道数;302)基于步骤301)的计算结果构建事故预测模型,依据下式计算路段i在t时刻的事故风险R(i,t):<mrow><msub><mi>R</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>P</mi><mrow><mo>(</mo><mi>Y</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mn>3.095</mn><mo>+</mo><mn>0.191</mn><mo>&CenterDot;</mo><mi>R</mi><mi>C</mi><mi>R</mi><mi>I</mi><mo>+</mo><mn>0.178</mn><mo>&CenterDot;</mo><mi>&sigma;</mi><mo>(</mo><msub><mi>O</mi><mi>U</mi></msub><mo>)</mo></mrow><mo>+</mo><mn>0.172</mn><mo>&CenterDot;</mo><mi>&sigma;</mi><mrow><mo>(</mo><msub><mi>O</mi><mi>D</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mrow><mn>1</mn><mo>+</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mn>3.095</mn><mo>+</mo><mn>0.191</mn><mo>&CenterDot;</mo><mi>R</mi><mi>C</mi><mi>R</mi><mi>I</mi><mo>+</mo><mn>0.178</mn><mo>&CenterDot;</mo><mi>&sigma;</mi><mo>(</mo><msub><mi>O</mi><mi>U</mi></msub><mo>)</mo></mrow><mo>+</mo><mn>0.172</mn><mo>&CenterDot;</mo><mi>&sigma;</mi><mrow><mo>(</mo><msub><mi>O</mi><mi>D</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mfrac></mrow>其中,P(Y=1)为追尾事故发生概率;σ(OU)为上游检测器占有率标准差,σ(OD)为下游检测器占有率标准差,303)将步骤302)的计算结果带入下式构建强化学习算法的回报函数:<mrow><msub><mi>P</mi><mi>C</mi></msub><mo>=</mo><mo>-</mo><mfrac><mrow><msub><mi>CR</mi><mrow><mi>V</mi><mi>S</mi><mi>L</mi></mrow></msub><mo>-</mo><msub><mi>CR</mi><mrow><mi>N</mi><mi>O</mi></mrow></msub></mrow><mrow><msub><mi>CR</mi><mrow><mi>N</mi><mi>O</mi></mrow></msub></mrow></mfrac></mrow><mrow><mi>C</mi><mi>R</mi><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>I</mi></munderover><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><mi>R</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow></mrow>其中,Reward为回报值;PC为事故风险变化比例;CRVSL和CRNo分别为可变限速控制和无控制下的事故风险;R(i,k)为路段i在k时刻的事故风险;I为路段个数;K为仿真时间;4)基于步骤1)中采集到的不同可变限速控制状态下的交通流数据库训练智能体,包括步骤:401)初始化,将所有“状态‑行为”对应的Q值设置为零,将可变限速控制前后5分钟的数据集计后用于判断交通流状态的转移情况;402)基于步骤401)中的初始化数据开始Q学习,在Q学习每一个时间步中,首先判断当前交通流状态,再判断当前状态是否已执行20次动作选择,若是,则进入步骤403);若不是则强制智能体尝试当前状态对应的不同动作实现“状态‑行为”集的遍历,再进入步骤404);403)采用softmax动作选择方法根据下式计算当前状态下选择各动作的概率:<mrow><msub><mi>P</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mi>e</mi><mrow><mi>Q</mi><mrow><mo>(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo>)</mo></mrow><mo>/</mo><mi>T</mi></mrow></msup><mrow><msub><mi>&Sigma;</mi><mrow><mi>b</mi><mo>&Element;</mo><mi>A</mi></mrow></msub><msup><mi>e</mi><mrow><mi>Q</mi><mrow><mo>(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo>)</mo></mrow><mo>/</mo><mi>T</mi></mrow></msup></mrow></mfrac></mrow>其中,Ps(a)为在状态s下选择行动a的概率;T为退火温度;Qt(s,a)为当前时刻“状态‑行为”对应的Q值;404)将步骤3)中计算得到的“状态‑行为”回报值和步骤402)或步骤403)中做出的动作选择带入下式更新Q值:Qt+1(st,at)=Rt+1+0.8×max Qt(st+1,at+1)其中,Qt+1(st,at)为t+1时刻对应的Q值;Qt(st+1,at+1)为t时刻对应的Q值;Rt+1为t+1时刻对应的回报函数值;405)判断Q值是否收敛,若是则将每个状态下最大Q值对应的动作确定为最优控制方法;若不是,则返回步骤3)转入下一个学习时间步;5)基于步骤405)中给出的最优可变限速控制方法,检测当前瓶颈路段及其上下游交通流数据并依据步骤201)确定的状态划分确定三个位置处的交通流状态,采用训练后的智能体实时选择当前交通流状态下的最优限速值并传递至可变限速控制指示牌发布限速值;6)实时采集步骤5)中发布最优限速值后的交通流数据和限速值并传回控制系统,智能体依据新的交通流数据和限速值重复步骤4)持续学习最优控制方法。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610409673.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top