[发明专利]自动驾驶车辆的抗干扰方法和装置在审
申请号: | 202110711897.9 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113485313A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 严佳龙 | 申请(专利权)人: | 杭州玳数科技有限公司 |
主分类号: | G05D1/00 | 分类号: | G05D1/00;G06N20/00 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 陈红桥 |
地址: | 310030 浙江省杭州市西湖区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 驾驶 车辆 抗干扰 方法 装置 | ||
1.一种自动驾驶车辆的抗干扰方法,其特征在于,包括以下步骤:
S1,基于强化学习中的异步优势行动者评论家算法对目标智能体进行预训练,其中,目标智能体为具有自动驾驶控制模型的自动驾驶车辆;
S2,固定预训练后的目标智能体的策略,并以预训练后的目标智能体的策略,利用深度确定性决策梯度算法训练对抗性智能体;
S3,固定训练后的对抗性智能体的策略,并以预训练后的对抗性智能体的策略,基于注意力机制对目标智能体进行对抗性训练;
S4,通过对抗性训练后的目标智能体实现自动驾驶控制。
2.根据权利要求1所述的自动驾驶车辆的抗干扰方法,其特征在于,在步骤S1中,强化学习中的异步优势行动者评论家算法采用多线程对目标智能体进行预训练,算法模型的主网络和子线程网络均分为Actor网络和Critic网络,每个线程各自更新子线程网络的参数,当每个子线程网络产生一定的训练数据后,计算各自子线程网络的损害函数的梯度,然后利用计算的梯度去迭代更新主网络,主网络的参数每间隔一定时间分发给子线程网络。
3.根据权利要求2所述的自动驾驶车辆的抗干扰方法,其特征在于,在步骤S2中,深度确定性决策梯度算法的网络结构由Actor网络和Critic网络两大部分组成,Actor网络包含动作估计网络和动作实现网络,Critic网络包含状态估计网络和状态实现网络,在利用深度确定性决策梯度算法训练对抗性智能体的训练过程中,将状态转换过程存储在经验回放缓冲区,作为训练数据集,最终训练后的对抗性智能体用以挖掘预训练后的目标智能体的策略中存在的安全漏洞。
4.根据权利要求3所述的自动驾驶车辆的抗干扰方法,其特征在于,在步骤S3中,在对目标智能体进行对抗性训练的过程中,每隔一定的回合生成对抗样本,利用通道空间注意力机制和像素空间注意力机制从目标智能体主网络的Actor网络中提取浅层特征以生成不同状态的对抗样本,将生成的对抗样本作为输入状态对目标智能体进行对抗训练。
5.根据权利要求4所述的自动驾驶车辆的抗干扰方法,其特征在于,步骤S2和S3重复多次执行。
6.一种自动驾驶车辆的抗干扰装置,其特征在于,包括:
第一训练模块,用于基于强化学习中的异步优势行动者评论家算法对目标智能体进行预训练,其中,目标智能体为具有自动驾驶控制模型的自动驾驶车辆;
第二训练模块,用于固定预训练后的目标智能体的策略,并以预训练后的目标智能体的策略,利用深度确定性决策梯度算法训练对抗性智能体;
第三训练模块,用于固定训练后的对抗性智能体的策略,并以预训练后的对抗性智能体的策略,基于注意力机制对目标智能体进行对抗性训练;
控制模块,用于通过对抗性训练后的目标智能体实现自动驾驶控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州玳数科技有限公司,未经杭州玳数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110711897.9/1.html,转载请声明来源钻瓜专利网。