[发明专利]一种基于深度强化学习的多车队列控制方法在审

申请号：	202110054062.0	申请日：	2021-01-15
公开（公告）号：	CN112801149A	公开（公告）日：	2021-05-14
发明（设计）人：	陈龙;陆思凯;蔡英凤;高翔;高洪波;刘卫国;王海;熊晓夏	申请（专利权）人：	江苏大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	212013 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习车队控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于深度强化学习的多车队列控制方法，将堆叠4帧的状态量作为网络的输入，使用车队共享网络的训练方法产生训练样本填充经验池；在训练过程中每个周期结束时对经验池进行备份；在经验池中进行采样训练网络。本发明使用车队共享网络，多车同时参加训练的训练方法，车队成员同时产生训练样本，大幅度缓解了连续动作空间探索效率低下的问题，利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好，模型可以应对更加复杂的工况。使用时序信息，堆叠4帧状态量作为网络输入，增强网络的鲁棒性。提出经验池备份方法，通过对经验池的备份和覆盖，剔除非法周期产生的样本，防止低效的样本抽取劣化训练效果。

技术领域

本发明属于交通运输领域，涉及一种基于深度强化学习的多车队列控制方法。

背景技术

近些年，针对自动驾驶的研究有很多，强化学习被提出后，在自动驾驶方面的应用也相继涌现。跟车是自动驾驶中重要的行为之一，使用深度强化学习训练跟车网络，通过设定合适的奖励函数可以优化汽车的跟车策略，在保证安全性的基础上体现一定的利他性。在复杂交通条件跟车策略难以设定时，可以通过逆强化学习对策略进行学习。

车队控制是在跟车基础上的多车体控制情境，使用深度强化学习进行训练，可以在一定程度上消减交通震荡，提高燃油经济性的同时展现利他性。但是车队控制在训练过程中存在问题：首先，多车体同时参加训练，训练难度大，甚至可能导致网络难以收敛。其次，奖励函数设计困难，每个车队成员拥有一个奖励函数，车队成员输出的动作互相干扰，存在奖励抵消的现象，导致训练中探索困难。最后，由于输入输出固定，与现实车队频繁改变成员数量矛盾，实用性差。为了避免以上问题，传统的训练方法是首先训练单车网络，再将收敛后的网络应用到每个车队成员，这样的方法没有在训练过程中体现车队环境，由于单车网络产生的样本单一，导致获得模型无法面对复杂情况。

发明内容

本发明目的在于提供一种基于深度强化学习的多车队列训练方法，通过车队共享网络，提高探索效率和样本多样性，使得后期训练稳定性得以提高，并通过使用时序信息和经验池备份增强训练的稳定性。

为实现上述目的，本发明采用如下技术方案：

基于深度强化学习的多车队列控制方法，包括如下步骤：

步骤1：使用基于深度强化学习的车队共享深度确定性策略梯度算法(PSDDPG)，堆叠4帧的状态量作为网络的输入。以跟车网络为例，首先我们使用前后四帧的本车和前车状态作为神经网络输入，一帧状态量为[d，v1，v2，a1，a2]，其中前后车之间距离d，前车车速v1，前车加速度a1，后车车速v2，后车加速度a2，一共20个状态量作为神经网络的输入，使用前后四帧的时序信息作为网络输入有助于提高训练的稳定性，增强网络的鲁棒性。

然后，我们使用归一化对神经网络的输入进行处理，归一化后的输入范围为[-1，1]。归一化是为了消除指标之间的量纲影响，使各指标处于同一数量级，减少奇异样本数据，防止梯度消失和梯度爆炸，加速网络收敛。

步骤2：在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池。相比于把所有车队成员状态作为输入，输出成员个数的动作，我们只将每一辆智能网联汽车自身和前车的状态作为输入，输出控制自身的一个动作，促使网络收敛，避免出现成员动作互相干扰、奖励抵消的现象。与此同时所有智能网联汽车共享决策网络，共同参与网络的训练。

步骤3：使用深度强化学习算法DDPG对跟车、换道、决策网络分别进行训练，其使用的网络均为Actor-Critic网络架构；在训练过程中每个周期结束时对经验池进行备份。针对强化学习探索阶段探索不充分，学习初期样本采样效率低下，神经网络输出饱和值，导致经验池被污染，劣化训练效果的问题，提出了经验池备份的方法。在每个周期结束时，对经验池进行备份：

M0＝M

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏大学，未经江苏大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110054062.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的多车队列控制方法在审

专利文献下载