[发明专利]基于神经元覆盖率的深度强化学习鲁棒训练方法和装置在审

申请号：	202110656115.6	申请日：	2021-06-11
公开（公告）号：	CN113298255A	公开（公告）日：	2021-08-24
发明（设计）人：	陈晋音;王珏;章燕;王雪柯;胡书隆	申请（专利权）人：	浙江工业大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06K9/62
代理公司：	杭州天勤知识产权代理有限公司 33224	代理人：	曹兆霞
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于神经元覆盖率深度强化学习训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明的公开了一种基于神经元覆盖率的深度强化学习鲁棒训练方法和装置，包括以下步骤：(1)搭建智能驾驶环境，从智能驾驶环境中采集状态数据对深度强化学习模型训练，直到达到设定回报值为止；(2)利用训练好的深度强化学习模型在环境中运行，提取多轮的状态动作对；(3)构建用于根据历史状态动作对序列预测未来时刻状态动作对序列的预测器和用于对状态动作对进行质量分类的分类器，并利用提取的状态动作对训练预测器和分类器；(4)依据定义的对抗采样策略，根据状态动作对质量采样状态动作对并进行深度强化学习模型的再训练，以提高深度强化学习模型的鲁棒性。

技术领域

本发明涉及人工智能领域，尤其涉及一种基于神经元覆盖率的深度强化学习鲁棒训练方法和装置。

背景技术

随着人工智能的快速发展，深度强化学习算法已经成为该领域中最受关注的算法之一。深度强化学习将深度学习的感知能力与强化学习的决策能力相结合，可以直接根据输入的信息进行端到端的控制，解决高维状态空间的序列决策问题。由于其卓越的性能，深度强化学习算法被广泛地应用在自动驾驶、自动翻译、对话系统和视频检测等方面。然而，神经网络黑箱缺乏可解释性，安全方面难以得到保证，因此分析模型的漏洞，采用一些鲁棒性增强方法是至关重要的。

强化学习如何生成足够的有意义的训练场景，以及智能体在罕见场景下的鲁棒表现仍然是一个很重要的问题。首先，大部分的训练方式都很产生大量的重复操作，智能体刚开始学习任务时，很容易导致失败，随着不断地学习，失败的频率会下降。智能体会不断遇到已经掌握的方案，智能体在这个阶段性能提升是很小的，这样的训练会导致不合理的数据饥饿。其次，对于像自动驾驶这样安全至关重要的场景，一次碰撞就可能带来难以估计的损失，因此在智能体训练的过程中，失败的经验是很重要的。因此，本发明采用一个预测器，根据一幕中的前几个状态和模型信息，可以对后续的状态和模型信息进行预测，然后对这一幕进行分类，确定其是否为失败且是高神经覆盖率的样本，采取一定的概率，决定这些样本是否用于更新模型。

神经元覆盖率是深度学习模型白盒测试的一种方法，DeepExplore中表明神经元覆盖率越高，代表数据触发模型更多的逻辑结构，此外，使用覆盖率高的数据对模型进行重训练，可以提高模型的准确率。因此，本发明中，挑选各幕数据中神经元覆盖率高的样本对模型进行训练。然而对每一幕的样本都进行神经元覆盖率的评估是非常消耗计算资源的，将覆盖率的评估也作为预测器的输出结果是一个减少资源消耗办法。

综上所述，如何建立一个预测器，使用一幕中前几个状态的样本来预测整一幕的状态，并对这一幕的成功率和神经元覆盖率进行预测，

从而以一定的概率挑选样本对强化学习模型的训练有着很大的益处，对深度强化学习模型应用到安全至关重要的领域中具有重要的理论和实践意义。

发明内容

为了实现深度强化学习策略的鲁棒性增强，本发明提供了一种基于神经元覆盖率的深度强化学习鲁棒训练方法和装置，使用预测器和分类器在训练阶段挑选神经元覆盖率高以及容易导致失败的样本，以一定的概率决定是否使用这些数据对智能体进行训练，从而训练一个对危险场景较为敏感的智能体，提升智能体的鲁棒性。

本发明解决其技术问题所采取的技术方案是：

第一方面，实施例提供的一种基于神经元覆盖率的深度强化学习鲁棒训练方法，包括以下步骤：

(1)搭建智能驾驶环境，从智能驾驶环境中采集状态数据对深度强化学习模型训练，直到达到设定回报值为止；

(2)利用训练好的深度强化学习模型在环境中运行，提取多轮的状态动作对；

(3)构建用于根据历史状态动作对序列预测未来时刻状态动作对序列的预测器和用于对状态动作对进行质量分类的分类器，并利用提取的状态动作对训练预测器和分类器；

(4)依据定义的对抗采样策略，根据状态动作对质量采样状态动作对并进行深度强化学习模型的再训练，以提高深度强化学习模型的鲁棒性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载