[发明专利]一种基于可解释性的检测并恢复神经网络对抗样本方法有效
| 申请号: | 202010555172.0 | 申请日: | 2020-06-17 |
| 公开(公告)号: | CN111783853B | 公开(公告)日: | 2022-05-03 |
| 发明(设计)人: | 王静远;吴宇帆;李明轩;林鑫;李超 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/82;G06N3/04 |
| 代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 曹鹏飞 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 解释性 检测 恢复 神经网络 对抗 样本 方法 | ||
本发明公开了一种基于可解释性的检测并恢复神经网络对抗样本方法,具体步骤包括:获取原始图像数据;原始图像数据经过解释器得到四种解释图;解释图与所述原始图像数据作为对抗样本检测器的输入;输出为图像是否为对抗样本;若为对抗样本,则执行下一步,若不是对抗样本,则直接输出分类器模型对于图像的预测结果;根据对抗样本获取掩码后的图像,用掩码后的图像作为输入,输出对抗样本恢复器对于对抗样本的预测结果。本发明检测器的检测正确率和AUC值更高,具有可迁移性,具有更好的对抗样本恢复性能以及模型训练速度,更高的数据使用效率。
技术领域
本发明涉及对抗样本防御技术领域,更具体的说是涉及一种基于可解释性的检测并恢复神经网络对抗样本方法。
背景技术
得益于计算机硬件的快速发展,深度学习在图像识别,语音识别,多媒体处理等领域都取得了惊人的成绩。在某些特定的任务上,其表现甚至超越了人类。因此,许多成熟的神经网络模型已经被大规模部署在现实应用场景中。然而对于某些特殊场景如自动驾驶和安防领域来说,神经网络模型需要很高的鲁棒性,此时我们需要考虑应用的模型是否足够可靠和安全。
近几年关于深度学习模型安全问题的研究发现,通过用精心设计的极小噪声扰动原始图像,得到的新图像可以直接导致图像分类器识别错误,但人的肉眼却无法察觉到该图像被篡改过,这说明了神经网络模型潜在的脆弱性。这样的图像我们称之为对抗样本,而构造对抗样本的算法则称为对抗攻击。进一步研究发现,基于一个开源的神经网络分类模型生成的对抗样本,也能攻击其它不可访问且不同网络架构的分类模型,这揭示了对抗攻击具有迁移性以及神经网络模型不够鲁棒的普遍性。因而如何防御针对深度学习的对抗攻击并提高神经网络模型的鲁棒性成为了一个重要的研究课题。
虽然深度模型能提取有效的特征并出色地完成多种复杂任务,但人们不知道模型为什么深度模型会做出这样的决策,模型对于研究者来说仍然是黑盒的,因此神经网络模型的可解释性研究也被囊括进深度学习中。目前大多数可解释研究通过可视化的技术来窥探模型的内部,例如GuidedBackpropagation,IntegratedGrad,GradCAM等基于梯度的解释性方法。有研究者利用解释工具发现,神经网络模型在对干净样本和对抗样本做决策时会有所区别,揭示了可解释性与对抗样本的潜在联系。然而利用这种联系做对抗样本防御的研究还比较少。
现有的防御对抗攻击的方法,大体分为两种类型:(a)正确判定;(b)仅检测。第一种类型的目标是让模型忽略或者去除对抗样本的扰动而给出正确的判定结果。采取这种策略的防御方法有对抗训练,蒸馏模型,自动编码器去噪等方法。然而这些方法有训练时间长,不能有效防御黑盒攻击和白盒攻击等缺点。第二种防御类型是只识别模型的输入图片是否为对抗样本,若是对抗样本,则拒绝服务。此防御类型包括特征压缩检测,对抗样本检测网络,抽取中间层检测,N+1类分类器等方法。该类型相较正确判定而言较为容易,许多检测方法都有着较高的检测正确率。但部分方法只能检测由弱攻击生成的对抗样本,又或者其检测器的AUC值(Area Under Curve)较低。有研究也指出,大部分检测方法不能防御黑盒攻击和白盒攻击。
因此,如何提供一种检测器的检测正确率和AUC值更高,甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁,且具有可迁移性的防御方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于可解释性的检测并恢复神经网络对抗样本方法,本方法与现有的基于检测的对抗样本防御方法相比,能有效防御当前攻击领域的前沿攻击方法,检测器的检测正确率和AUC值更高,甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁,且具有可迁移性,具有更好的对抗样本恢复性能以及模型训练速度,更高的数据使用效率;可以显著提高对抗攻击的成本,使得部分基于L2范数的攻击算法失败或者生成可以轻易被肉眼识别的低质量对抗样本;可以方便地部署在已经投入使用的生产环境中,而不影响现有的神经网络架构;或方便地与其他现有防御方法组合使用。
为了实现上述目的,本发明提供如下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010555172.0/2.html,转载请声明来源钻瓜专利网。





