[发明专利]一种基于深度强化学习的多车队列控制方法在审
申请号: | 202110054062.0 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112801149A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 陈龙;陆思凯;蔡英凤;高翔;高洪波;刘卫国;王海;熊晓夏 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 车队 控制 方法 | ||
1.一种基于深度强化学习的多车队列控制方法,其特征在于,包括如下步骤:
步骤1:使用基于深度强化学习的车队共享深度确定性策略梯度算法PSDDPG,堆叠4帧的状态量作为网络的输入;首先我们使用前后四帧的本车和前车状态作为神经网络输入,一帧状态量为[d,v1,v2,a1,a2],其中前后车之间距离d,前车车速v1,前车加速度a1,后车车速v2,后车加速度a2,一共20个状态量作为神经网络的输入;
步骤2:使用深度强化学习算法DDPG对跟车、换道、决策网络分别进行训练,其使用的网络均为演出-评论家Actor-Critic网络架构;在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池,相比于把所有车队成员状态作为输入,输出成员个数的动作,只将每一辆智能网联汽车自身和前车的状态作为输入,输出控制自身的一个动作,与此同时所有智能网联汽车共享决策网络,共同参与网络的训练;
步骤3:在训练网络过程中每个周期结束时对经验池进行备份,在每个周期结束时,对经验池进行备份:
M0=M
其中M表示经验池、M0表示备用经验池,当本周期没有达到设定的条件时,我们认为该周期为非法周期,用之前备份的经验池进行覆盖,防止非法样本对经验池的污染,在本次实验中,判定依据设定为前后两帧本车的车速:
M=M0,ifvego[0]<0.01 and vego[1]<0.01
其中vego[0]表示本车第一帧的车速、vego[1]表示本车第二帧的车速;
步骤4:从经验池中按照小批次抽样之后,计算目标函数yi:
yi=ri+γQi(si+1,μ′(si+1|θμ′)θQ)
其中ri表示即时回报、γ表示折扣因子、Qi(si+1,μ′(si+1|θμ′)θQ)表示状态si+1采取演出网络的目标网络μ′(si+1|θμ′)的策略所获得的价值、θμ′表示演出网络的目标网络的参数、θQ表示评论家网络的参数;然后通过最小化损失loss更新评论家网络:
其中N表示小批次抽样个数、yi表示目标网络、Q(si,ai|θQ)表示状态si在策略π下采取动作ai的价值、θQ表示评论家网络的参数;最后使用策略梯度下降更新演出网络:
其中N表示小批次抽样个数、表示Q(s,a∣θQ)对动作a的偏分,表示μ(s∣θμ)对θμ的偏分,μ(s∣θμ)表示演出网络,θμ表示演出网络的参数。
2.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法,其特征在于,所述步骤1还包括使用归一化对神经网络的输入进行处理,归一化后的输入范围为[-1,1]。
3.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法,其特征在于,所述步骤1中,所述DDPG算法中Actor网络所使用神经网络模型结构由5个全连接层组成,其中前4个网络使用relu激活函数,最后一层网络使用tanh激活函数将输出映射到[-1,1]区间;Critic网络所使用神经网络模型结构由5个全连接层组成,其中前4个网络使用relu激活函数,最后一层网络不使用激活函数直接输出q值进行评估,而后,对每一帧状态归一化使用的系数为[0.1,0.1,0.1,0.1,0.1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110054062.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:入侵植物竞争优势度量化方法
- 下一篇:清洁机器人的清洁转盘及清洁机器人