[发明专利]自动驾驶车辆的抗干扰方法和装置在审
申请号: | 202110711897.9 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113485313A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 严佳龙 | 申请(专利权)人: | 杭州玳数科技有限公司 |
主分类号: | G05D1/00 | 分类号: | G05D1/00;G06N20/00 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 陈红桥 |
地址: | 310030 浙江省杭州市西湖区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 驾驶 车辆 抗干扰 方法 装置 | ||
本发明提供一种自动驾驶车辆的抗干扰方法和装置,所述方法包括以下步骤:S1,基于强化学习中的异步优势行动者评论家算法对目标智能体进行预训练,其中,目标智能体为具有自动驾驶控制模型的自动驾驶车辆;S2,固定预训练后的目标智能体的策略,并以预训练后的目标智能体的策略,利用深度确定性决策梯度算法训练对抗性智能体;S3,固定训练后的对抗性智能体的策略,并以预训练后的对抗性智能体的策略,基于注意力机制对目标智能体进行对抗性训练;S4,通过对抗性训练后的目标智能体实现自动驾驶控制。本发明能够提高自动驾驶控制模型的鲁棒性、抗干扰能力,从而提高自动驾驶的安全性。
技术领域
本发明涉及人工智能技术领域,具体涉及一种自动驾驶车辆的抗干扰方法和一种自动驾驶车辆的抗干扰装置。
背景技术
深度强化学习(DRL)是近年来人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已经被应用于自动驾驶领域。为了保证深度强化学习在自动驾驶领域的安全应用,关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务,深度强化学习系统需要进行多步决策来完成某项任务,而且连续的决策之间还具有高度的相关性。
强化学习通常是一个连续决策的过程,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构,结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略,最终实现从感知输入到决策输出的端到端深度强化学习框架,具有较强的学习能力且应用广泛。深度强化学习策略通常采用深度神经网络(DNN)来近似操作值函数。但是,DNN容易受到对抗性攻击,攻击者可以在输入中添加较小但精心设计的扰动,这可能会误导DNN以很高的置信度提供不正确的输出。根据对样本的攻击,主要可分为观测攻击、奖励攻击、动作攻击以及环境攻击。同时,深度强化学习的训练过程中也会受到中毒攻击,使得模型的训练代价加大,模型的性能降低。此外,深度强化学习训练的策略还存在安全性隐患,模型策略漏洞的存在会给强化学习系统带来严重的损害,尤其是自动驾驶领域中,这种安全性隐患带来了很大的危害,会使强化学习系统的决策发生错误,这对于强化学习的决策安全应用是重大挑战。
发明内容
本发明为解决上述技术问题,提供了一种自动驾驶车辆的抗干扰方法和装置,能够提高自动驾驶控制模型的鲁棒性、抗干扰能力,从而提高自动驾驶的安全性。
本发明采用的技术方案如下:
一种自动驾驶车辆的抗干扰方法,包括以下步骤:S1,基于强化学习中的异步优势行动者评论家算法对目标智能体进行预训练,其中,目标智能体为具有自动驾驶控制模型的自动驾驶车辆;S2,固定预训练后的目标智能体的策略,并以预训练后的目标智能体的策略,利用深度确定性决策梯度算法训练对抗性智能体;S3,固定训练后的对抗性智能体的策略,并以预训练后的对抗性智能体的策略,基于注意力机制对目标智能体进行对抗性训练;S4,通过对抗性训练后的目标智能体实现自动驾驶控制。
在步骤S1中,强化学习中的异步优势行动者评论家算法采用多线程对目标智能体进行预训练,算法模型的主网络和子线程网络均分为Actor网络和Critic网络,每个线程各自更新子线程网络的参数,当每个子线程网络产生一定的训练数据后,计算各自子线程网络的损害函数的梯度,然后利用计算的梯度去迭代更新主网络,主网络的参数每间隔一定时间分发给子线程网络。
在步骤S2中,深度确定性决策梯度算法的网络结构由Actor网络和Critic网络两大部分组成,Actor网络包含动作估计网络和动作实现网络,Critic网络包含状态估计网络和状态实现网络,在利用深度确定性决策梯度算法训练对抗性智能体的训练过程中,将状态转换过程存储在经验回放缓冲区,作为训练数据集,最终训练后的对抗性智能体用以挖掘预训练后的目标智能体的策略中存在的安全漏洞。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州玳数科技有限公司,未经杭州玳数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110711897.9/2.html,转载请声明来源钻瓜专利网。