[发明专利]自动驾驶车辆的抗干扰方法和装置在审

申请号：	202110711897.9	申请日：	2021-06-25
公开（公告）号：	CN113485313A	公开（公告）日：	2021-10-08
发明（设计）人：	严佳龙	申请（专利权）人：	杭州玳数科技有限公司
主分类号：	G05D1/00	分类号：	G05D1/00;G06N20/00
代理公司：	常州佰业腾飞专利代理事务所(普通合伙) 32231	代理人：	陈红桥
地址：	310030 浙江省杭州市西湖区***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自动驾驶车辆抗干扰方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种自动驾驶车辆的抗干扰方法和装置，所述方法包括以下步骤：S1，基于强化学习中的异步优势行动者评论家算法对目标智能体进行预训练，其中，目标智能体为具有自动驾驶控制模型的自动驾驶车辆；S2，固定预训练后的目标智能体的策略，并以预训练后的目标智能体的策略，利用深度确定性决策梯度算法训练对抗性智能体；S3，固定训练后的对抗性智能体的策略，并以预训练后的对抗性智能体的策略，基于注意力机制对目标智能体进行对抗性训练；S4，通过对抗性训练后的目标智能体实现自动驾驶控制。本发明能够提高自动驾驶控制模型的鲁棒性、抗干扰能力，从而提高自动驾驶的安全性。

技术领域

本发明涉及人工智能技术领域，具体涉及一种自动驾驶车辆的抗干扰方法和一种自动驾驶车辆的抗干扰装置。

背景技术

深度强化学习(DRL)是近年来人工智能备受关注的方向之一，随着强化学习的快速发展和应用，强化学习已经被应用于自动驾驶领域。为了保证深度强化学习在自动驾驶领域的安全应用，关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务，深度强化学习系统需要进行多步决策来完成某项任务，而且连续的决策之间还具有高度的相关性。

强化学习通常是一个连续决策的过程，其基本思想是通过最大化智能体从环境中获取的累计奖励，从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构，结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略，最终实现从感知输入到决策输出的端到端深度强化学习框架，具有较强的学习能力且应用广泛。深度强化学习策略通常采用深度神经网络(DNN)来近似操作值函数。但是，DNN容易受到对抗性攻击，攻击者可以在输入中添加较小但精心设计的扰动，这可能会误导DNN以很高的置信度提供不正确的输出。根据对样本的攻击，主要可分为观测攻击、奖励攻击、动作攻击以及环境攻击。同时，深度强化学习的训练过程中也会受到中毒攻击，使得模型的训练代价加大，模型的性能降低。此外，深度强化学习训练的策略还存在安全性隐患，模型策略漏洞的存在会给强化学习系统带来严重的损害，尤其是自动驾驶领域中，这种安全性隐患带来了很大的危害，会使强化学习系统的决策发生错误，这对于强化学习的决策安全应用是重大挑战。

发明内容

本发明为解决上述技术问题，提供了一种自动驾驶车辆的抗干扰方法和装置，能够提高自动驾驶控制模型的鲁棒性、抗干扰能力，从而提高自动驾驶的安全性。

本发明采用的技术方案如下：

一种自动驾驶车辆的抗干扰方法，包括以下步骤：S1，基于强化学习中的异步优势行动者评论家算法对目标智能体进行预训练，其中，目标智能体为具有自动驾驶控制模型的自动驾驶车辆；S2，固定预训练后的目标智能体的策略，并以预训练后的目标智能体的策略，利用深度确定性决策梯度算法训练对抗性智能体；S3，固定训练后的对抗性智能体的策略，并以预训练后的对抗性智能体的策略，基于注意力机制对目标智能体进行对抗性训练；S4，通过对抗性训练后的目标智能体实现自动驾驶控制。

在步骤S1中，强化学习中的异步优势行动者评论家算法采用多线程对目标智能体进行预训练，算法模型的主网络和子线程网络均分为Actor网络和Critic网络，每个线程各自更新子线程网络的参数，当每个子线程网络产生一定的训练数据后，计算各自子线程网络的损害函数的梯度，然后利用计算的梯度去迭代更新主网络，主网络的参数每间隔一定时间分发给子线程网络。

在步骤S2中，深度确定性决策梯度算法的网络结构由Actor网络和Critic网络两大部分组成，Actor网络包含动作估计网络和动作实现网络，Critic网络包含状态估计网络和状态实现网络，在利用深度确定性决策梯度算法训练对抗性智能体的训练过程中，将状态转换过程存储在经验回放缓冲区，作为训练数据集，最终训练后的对抗性智能体用以挖掘预训练后的目标智能体的策略中存在的安全漏洞。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州玳数科技有限公司，未经杭州玳数科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110711897.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种双腔差压检漏系统及检测方法
下一篇：一种音乐数据的生成方法、装置、设备以及存储介质

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]自动驾驶车辆的抗干扰方法和装置在审

专利文献下载