[发明专利]基于混沌与强化学习的交通流预测的并行方法在审

专利信息
申请号: 202111453764.2 申请日: 2021-12-01
公开(公告)号: CN114463994A 公开(公告)日: 2022-05-10
发明(设计)人: 刘嘉辉;杜金;仇化平 申请(专利权)人: 哈尔滨理工大学
主分类号: G08G1/065 分类号: G08G1/065;G06N3/02;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 混沌 强化 学习 通流 预测 并行 方法
【权利要求书】:

1.基于混沌与强化学习的交通流预测的并行方法,其特征在于:

(1)对数据进行预处理,初始化嵌入维度和时间延迟,并进行混沌性质分析及通过混沌模型生成对比混沌时间序列,然后对交通流时间序列和对比混沌时间序列进行重构和标准化处理并进行数据集划分;

(2)构造强化学习的训练环境和对比环境,确定准确度边界,并以此来确定训练环境和对比环境奖励与惩罚函数以及actor的动作空间;

(3)构造actor-critic的神经网络模型结构,并初始化参数和更新方式;

(4)通过Ray并行框架在从进程中产生多个actor-critic模型与对比环境进行互动,通过与主进程的中央神经网络模型global的离散度对比和奖励来实现并行更新,并通过学习到的主进程的global模型对对比数据测试集上的数据进行预测验证,然后将对比环境更换为训练环境使用交通流数据进行训练并测试;

基于混沌与强化学习的交通流预测的并行方法,在数据预处理过程中其特征在于:

Step1_1,初始化重构交通流时间序列数据的嵌入维度m和时间延迟k;

Step1_2,通过Wolf法计算重构后交通流时间序列数据的最大Lyapunov指数,分析交通流时间序列的混沌特性;

Step1_3,初始化混沌模型生成对比混沌时间序列,混沌模型为Xi+1=cXi(1-Xi),其中Xi+1的集合为生成的混沌时间序列,c为混沌模型控制参数;

Step1_4,初始化重构对比混沌时间序列数据的嵌入维度md和时间延迟kd;

Step1_5,对交通流时间序列和对比混沌时间序列进行标准化处理,即计算ti=(ti-tm)/σ,tdi=(tdi-tdm)/σd,其中tm为交通流时间序列ti数据的平均值,σ为交通流时间序列数据的标准差,tdm为对比混沌时间序列tdi数据的平均值,σd为对比混沌时间序列数据的标准差;

Step1_6,通过预设的嵌入维度m,md和时间延迟k,kd对交通流时间序列和对比混沌时间序列进行重构,重构后的数据为:

T1=[t1,t1+k,t1+2k,…,t1+(m-1)k],T2=[t2,t2+k,t2+2k,…,t2+(m-1)k],…,Ti=[ti,ti+k,ti+2k,…,ti+(m-1)k];

Td1=[td1,td1+kd,td1+2kd,…,td1+(md-1)kd],Td2=[td2,td2+kd,td2+2kd,…,td2+(md-1)kd],…,

Tdi=[tdi,tdi+kd,tdi+2kd,…,tdi+(md-1)kd];

其中[T1,T2,…,Ti]为重构后的交通流时间序列数据,[Td1,Td2,…,Tdi]为重构后的对比混沌时间序列数据;

Step1_7,对重构后的交通流数据和对比混沌时间序列数据分别选取后n个点作为交通流数据测试集和对比数据测试集进行测试,其余点作为交通流数据训练集和对比数据训练集进行训练;

数据预处理过程描述完毕;

基于混沌与强化学习的交通流预测的并行方法在强化学习环境构造过程中包括:

Step2_1,将经过预处理的交通流数据训练集数据作为环境中的状态空间并按照时间顺序排列,具体如下所示:

S1=T1=[t1,t1+k,t1+2k,…,t1+(m-1)k],

S2=T2=[t2,t2+k,t2+2k,…,t2+(m-1)k],

…,

Sn=Tn=[tn,tn+k,tn+2k,…,tn+(m-1)k];

Step2_2,将相邻状态空间的最后一维数据依次进行求差操作求出动作空间范围,即tc1=t2+(m-1)k-t1+(m-1)k,tc2=t3+(m-1)k-t2+(m-1)k,…,tci-1=ti+(m-1)k-ti-1+(m-1)k,并求出动作空间范围和差值的标准差,动作空间范围为:[dmin,dmax],标准差为σ,其中dmin,dmax分别为差值的最小值和最大值;

Step2_3,以tci为中心将状态Si对应的动作空间的奖励按照正态分布进行分布,分布函数为ri=1/((2Π)1/2σ)exp(-(di-tci)2/(2σ)2),其中di代表动作空间内的动作i;

Step2_4,依据预测值与真实值差值最小条件求出表示预测准确度的范围边界,具体描述为:

Step2_4_1,根据动作空间范围与奖励分布设定条件函数与约束函数,具体公式描述为:

(1)F=((ti+1+(m-1)k)2-tui2)1/2

(2)ti+1+(m-1)k-tui=-dmax

(3)tui-ti+1+(m-1)k=dmin

其中(1)为条件函数,结果为预测值与真实值的欧氏距离,(2)和(3)为约束函数,tui为状态Si下的预测值,ti+1+(m-1)k为状态Si+1的真实值;

Step2_4_2,依据条件函数与约束函数确定求解函数,具体公式为:

L1=(ti+1+(m-1)k-tui)2+1/(4a)*((max(0,b1-2a(ti+1+(m-1)k-tui+dmax)))2-b2);

L2=(ti+1+(m-1)k-tui)2+1/(4a)*((max(0,b2-2a(tui-ti+1+(m-1)k-dmin)))2-b2);

其中L1,L2分别为准确度的右边界和左边界求解函数;

Step2_4_3,使dL1/dtui=0,dL2/dtui=0,计算tui1=(2ti+1+(m-1)k-b1+2a(ti+1+(m-1)k+dmax))/(2(a-1)),tui2=(2ti+1+(m-1)k-b2+2a(ti+1+(m-1)k-dmin))/(2(a-1)),其中tui1为准确度右边界值,tui2为准确度左边界值;

Step2_4_4,对a,b1,b2赋初值,设定tui1,tui2的初始值,其中a为惩罚因子,b1,b2为乘子;

Step2_4_5,设定迭代次数k,并按照下面公式进行迭代:

b1=max(0,b1-2a(ti+1+(m-1)k-tui+dmax));

b2=max(0,b1-2a(ti+1+(m-1)k-tui-dmin));

tui1=(2ti+1+(m-1)k-b1+2a(ti+1+(m-1)k+dmax))/(2(a-1));

tui2=(2ti+1+(m-1)k-b2+2a(ti+1+(m-1)k-dmin))/(2(a-1));

Step2_4_6,对迭代输出的tui1,tui2结果分别进行向上取整和向下取整操作,并将tui1,tui2的取整结果设置为准确度范围边界;

Step2_5,将dli=tui1-ti+1+(m-1)k,dri=tui2-ti+1+(m-1)k,分别设置为状态空间Si对应动作空间的左边界值和右边界值,取边界内的奖励值为ri,边界外的奖励值为ri=-1/ri;

Step2_6,将交通流数据训练集数据替换为对比数据训练集数据重复以上步骤构造对比环境;

强化学习环境构造过程描述完毕;

基于混沌与强化学习的交通流预测的并行方法在初始化神经网络模型过程中包括:

Step3_1,初始化actor网络结构,actor网络实现估计智能体的行动策略,并且策略具有连续性,设置actor的网络输入神经元个数为m即环境的状态维度,当环境为训练环境时m为训练环境的状态维度,当环境为对比环境时m为对比环境的状态维度,中间层网络结构使用CRU结构的神经网络,输出为[dmin,dmax]的动作概率分布并使用softmax激活函数构建模型;

Step3_2,初始化critic网络结构,critic网络实现估计状态的价值,设置critic的网络输入神经元个数为m,中间层网络结构使用CRU结构的神经网络,输出为[0,1]的数值并使用ReLU激活函数构建模型;

Step3_3,初始化actor与critic的网络参数θa,θc,其中actor网络用来学习智能体的行为策略,critic网络用来学习预测行为前后状态的价值差;

Step3_4,设定actor与critic的损失函数分别为:

loss_a=1/n*(A(s1,a1)*log(a1|s1))+(A(s2,a2)*log(a2|s2))+…(A(si,ai)*log(ai|si))+(A(sn,an)*log(an|sn)),其中A(si,ai)=ri+G*Si+1+ri+1+G2*Si+2+…+rn+Gn-i*Sn,si为状态值,ai为动作值,ri为环境的奖励值,G为状态更新率,Vi为critic模型对状态Si+1的估计值;

loss_s=-((V1-S1)2+(V2-S2)2+…+(Vi-Si)2+(Vn-Sn)2)/n,其中

Vi=ri+G*Si+1+ri+1+G2*Si+2+…+rn+Gn-i*Sn,其中Si为critic模型对状态Si的价值估计值;

Step3_5,设定actor与critic模型的初始动作策略,策略选择函数为:

A=μ*max(pa1,pa2,…,pai,pan)+(1-μ)*rand(pa1,pa2,…,pai,pan),其中μ为贪心比例,pai代表动作i的估计值,rand为随机函数;

Step3_6,根据critic模型的损失函数loss_s与actor模型的损失函数loss_a的梯度ts,ta,依据梯度进行参数更新;

初始化神经网络模型结构及更新方式过程描述完毕;

基于混沌与强化学习的交通流预测的并行方法在并行强化学习过程中包括:

Step4_1,初始化主进程Master及Master内global模型的actor参数θga,critic参数θgc,初始化从进程Slave_1,Slave_2,...,Slave_i,Slave_m及从进程内的actor-critic模型J1,J2,…,JM,并将主进程Master内global的参数发送到每个从进程中进行初始化;

Step4_2,设置从进程Slave_i的本地学习时间间隔T,本地更新数目Tm与公共更新数目Tg,并统一初始化每个从进程;

Step4_3,从进程Slave_i内的actor-critic模型Ji通过对状态的预测结果进行动作选择,其中当状态多次未改变时使用动作选择的优化策略函数,具体为:

Step4_3_1,设定探索区间[dmin,dmax],最终区间长度e,探索次数n,辨别常数b0;

Step4_3_2,计算试探动作值以及奖励值,具体为:

Al=dmin+Fn-2/Fn*(dmax-dmin),Ar=dmin+Fn-1/Fn*(dmax-dmin),Rl=ri(Al),Rr=ri(Ar),其中Al,Ar为试探动作范围的左右边界值,Fn为第n项的Fibonacci数列值,Rl,Rr为左右动作边界试探的奖励值;

Step4_3_3,使n=n-1,并开始迭代计算,具体为:

当AlAr时,使dmax=Ar,Ar=Al,Rr=Rl,若n2,则计算Al=dmin+Fn-2/Fn*(dmax-dmin),Rl=ri(Al),否则计算Al=Al-b,Rl=ri(Al);

当Al=Ar时,使dmin=Al,Al=Ar,Rl=Rr,若n2,则计算Al=dmin+Fn-1/Fn*(dmax-dmin),Rr=ri(Ar),否则计算Ar=Ar+b,Rr=ri(Ar);

Step4_3_4,当(Rr0 U Rl0 U n=1,U为逻辑或运算)为真时迭代结束,从进程Slave_i内的actor-critic模型Ji转为使用初始动作策略进行探索;

Step4_4,从进程Slave_i将本地actor-critic模型Ji收集的结果以[S,A,R]的形式按照时间顺序保存到本地记忆库中;

Step4_5,从进程Slave_i内的actor-critic模型Ji以T时间间隔从本地记忆库中选择Tm个记忆进行学习并进行本地参数更新,当本地记忆库数目达到Tg时将模型最新参数Jia,Jic,Tg-Tm的奖励Rm和0-Tm时间内的奖励R0上传到主进程Master内,并将本地记忆库进行清空处理;

Step4_6,主进程Master内的global模型根据global参数与从进程Slave_i内的actor-critic模型Ji上传的参数进行参数更新,具体为:

Step4_6_1,计算主进程Master内的global模型与从进程Slave_i内的actor-critic模型Ji上传的本地模型参数的离散度,具体公式为:

D(Ga||Jia)=Ga1*log(Ga1/Jia1)+Ga2*log(Ga2/Jia2)+…+Gai*log(Gai/Jiak)+Gan*log(Gan/Jian);

D(Gc||Jic)=Gc1*log(Gc1/Jic1)+Gc2*log(Gc2/Jic2)+…+Gci*log(Gci/Jick)+Gcn*log(Gcn/Jicn);

其中D(Ga||Jia),D(Gc||Jic)分别表示主进程Master内的global模型与从进程Slave_i内的Ji模型中的actor参数离散度和critic参数离散度;

Step4_6_2,计算奖励Rm与奖励R0的差值Rt用于下一步更新,其中Rt=Rm-R0;

Step4_6_3,计算损失函数实现参数优化更新,损失函数具体为:

Loss_ga=-Rt*D(Ga||Jia);

Loss_gc=-Rt*D(Gc||Jic);

Step4_6_4,依据损失函数Loss_ga,Loss_gc对主进程Master内的global模型参数进行损失最小化更新;

Step4_7,当主进程Master内的global模型在Tm时间内的总奖励RgRmax时,使用global模型的最新参数对对比数据测试集上的数据进行预测并计算绝对误差,验证算法对混沌时间序列预测的准确性及可行性;

Step4_8,将对比环境更换为训练环境对交通流数据进行学习,并在交通流数据测试集上进行测试;

并行强化学习过程描述完毕。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111453764.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top