[发明专利]一种优化信号交叉口排队长度的在线学习方法无效
申请号: | 201210554601.8 | 申请日: | 2012-12-20 |
公开(公告)号: | CN103077615A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 卢守峰;刘喜敏 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G08G1/07 | 分类号: | G08G1/07 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410076 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种优化信号交叉口排队长度的在线学习方法,包括以下步骤:(1)状态、行为、奖赏选取;(2)强化学习矩阵更新公式;(3)建立仿真优化平台;(4)在线运行。本发明所述方法能够计算全局最优解、且具有记忆性的信号配时优化技术。本发明与风险中立强化学习技术相比,本发明不需要事先离线学习,具有更好的实时性和适应性。 | ||
搜索关键词: | 一种 优化 信号 交叉口 排队 长度 在线 学习方法 | ||
【主权项】:
1.一种优化信号交叉口排队长度的在线学习方法,其特征在于,包括以下步骤:(1)状态、行为、奖赏选取11)以各相位关键车流的排队长度组成的向量作为状态,为了提高计算效率,状态空间采用离散形式,离散步长为平均排队长度差的整数倍数;12)以各相位绿灯时间组成的向量作为行为,采用动态行为集技术:首先计算各相位关键车流的平均排队长度占交叉口总排队长度的比例,然后将这一比例乘以事先确定的周期长度,得到各相位的基准绿灯时间,以基准绿灯时间为原点,以周期的某一比例值作为半径,构成各相位绿灯时间的行为集;13)以各相位关键车流的加权排队长度差的绝对值之和作为奖赏,优化目标是等排队长度,通过权重系数反映交通流向的重要程度;(2)强化学习矩阵更新公式强化学习矩阵更新公式为:
其中β为权重因子,α为学习率,γ为折扣因子,r表示当前奖励,Q(s,a)表示状态s、行为a对应的强化学习值;(3)建立仿真优化平台31)以Excel VBA作为主控程序,将微观交通仿真软件Vissim和Matlab软件作为调用对象,分别采用COM接口和Excel Link接口;32)利用Vissim软件建立交通仿真模型,利用Matlab开发优化排队长度的强化学习模型,基于实时数据利用该平台计算强化学习矩阵;(4)在线运行41)按照步骤(1)中提到的离散步长,通过视频检测器判断排队长度处于哪个区间;42)在线运行指数平滑型的强化学习模型,优化信号配时;43)利用数据采集手段对优化效果进行评估。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210554601.8/,转载请声明来源钻瓜专利网。