[发明专利]一种基于深度强化学习的多车队列控制方法在审

申请号：	202110054062.0	申请日：	2021-01-15
公开（公告）号：	CN112801149A	公开（公告）日：	2021-05-14
发明（设计）人：	陈龙;陆思凯;蔡英凤;高翔;高洪波;刘卫国;王海;熊晓夏	申请（专利权）人：	江苏大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	212013 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习车队控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的多车队列控制方法，其特征在于，包括如下步骤：

步骤1：使用基于深度强化学习的车队共享深度确定性策略梯度算法PSDDPG，堆叠4帧的状态量作为网络的输入；首先我们使用前后四帧的本车和前车状态作为神经网络输入，一帧状态量为[d，v1，v2，a1，a2]，其中前后车之间距离d，前车车速v1，前车加速度a1，后车车速v2，后车加速度a2，一共20个状态量作为神经网络的输入；

步骤2：使用深度强化学习算法DDPG对跟车、换道、决策网络分别进行训练，其使用的网络均为演出-评论家Actor-Critic网络架构；在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池，相比于把所有车队成员状态作为输入，输出成员个数的动作，只将每一辆智能网联汽车自身和前车的状态作为输入，输出控制自身的一个动作，与此同时所有智能网联汽车共享决策网络，共同参与网络的训练；

步骤3：在训练网络过程中每个周期结束时对经验池进行备份，在每个周期结束时，对经验池进行备份：

M0＝M

其中M表示经验池、M0表示备用经验池，当本周期没有达到设定的条件时，我们认为该周期为非法周期，用之前备份的经验池进行覆盖，防止非法样本对经验池的污染，在本次实验中，判定依据设定为前后两帧本车的车速：

M＝M0，ifv_ego[0]＜0.01 and v_ego[1]＜0.01

其中v_ego[0]表示本车第一帧的车速、v_ego[1]表示本车第二帧的车速；

步骤4：从经验池中按照小批次抽样之后，计算目标函数y_i：

y_i＝r_i+γQⁱ(s_i+1，μ′(s_i+1|θ^μ′)θ^Q)

其中r_i表示即时回报、γ表示折扣因子、Qⁱ(s_i+1，μ′(s_i+1|θ^μ′)θ^Q)表示状态s_i+1采取演出网络的目标网络μ′(s_i+1|θ^μ′)的策略所获得的价值、θ^μ′表示演出网络的目标网络的参数、θ^Q表示评论家网络的参数；然后通过最小化损失loss更新评论家网络：

其中N表示小批次抽样个数、y_i表示目标网络、Q(s_i，a_i|θ^Q)表示状态s_i在策略π下采取动作a_i的价值、θ^Q表示评论家网络的参数；最后使用策略梯度下降更新演出网络：

其中N表示小批次抽样个数、表示Q(s,a∣θ^Q)对动作a的偏分，表示μ(s∣θ^μ)对θ^μ的偏分，μ(s∣θ^μ)表示演出网络，θ^μ表示演出网络的参数。

2.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法，其特征在于，所述步骤1还包括使用归一化对神经网络的输入进行处理，归一化后的输入范围为[-1，1]。

3.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法，其特征在于，所述步骤1中，所述DDPG算法中Actor网络所使用神经网络模型结构由5个全连接层组成，其中前4个网络使用relu激活函数，最后一层网络使用tanh激活函数将输出映射到[-1，1]区间；Critic网络所使用神经网络模型结构由5个全连接层组成，其中前4个网络使用relu激活函数，最后一层网络不使用激活函数直接输出q值进行评估，而后，对每一帧状态归一化使用的系数为[0.1，0.1，0.1，0.1，0.1]。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏大学，未经江苏大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110054062.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的多车队列控制方法在审

专利文献下载