[发明专利]基于显著性对抗训练的对抗样本防御方法有效
申请号: | 202110120845.4 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112766401B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 王莘;宫羽欣 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06N3/04 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 孙莉莉 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 显著 对抗 训练 样本 防御 方法 | ||
本发明公开了一种基于显著性对抗训练的对抗样本防御方法,包括:利用投影梯度下降法生成对抗样本;利用可解释性方法获取模型对于对抗样本的显著图;将显著图划分为预设数量的小块样本,并计算每个小块样本的平均显著值,每个小块样本根据对应位置的平均显著值进行JPEG压缩;将显著性压缩后的对抗样本作为训练数据进行对抗训练。在测试时,将显著性压缩后的样本输入模型进行识别。该方法提升模型的对抗鲁棒性,提升模型对于对抗样本的识别准确率。
技术领域
本发明涉及攻击防御技术领域,特别涉及一种基于显著性对抗训练的对抗样本防御方法。
背景技术
当深度神经网络应用在对抗性环境中时,需要考虑一些安全性漏洞。对抗样本就是经过预训练的神经网络模型在测试以及在实际应用期间会被攻击者利用,并会针对模型造成一定的安全性威胁的人工产物。攻击者的主要目的是在输入样本X上添加尽可能小的扰动矢量δX,使得分类模型F产生不同于真实标签Y的错误输出Y*≠Y。形式化对抗样本的优化问题如下公式所示。添加在对抗样本上的对抗性扰动通常不会影响人类的正确判断,但确会误导模型的识别结果。
为了抵抗对抗性攻击,已经提出了许多防御对抗样本的方法,这些对抗性防御方法试图恢复模型针对对抗样本的正确识别结果,大致可分为两类。第一类防御方法增强神经网络模型本身的鲁棒性。对抗训练是其中的一种典型方法,它将对抗样本融入训练数据中,并给予这些对抗样本对应的正确标签重新训练神经网络模型。虽然对抗训练对模型的对抗鲁棒性有所改善,但依旧具有一定的上升空间。第二类防御方法是基于图像预处理操作,一些研究将对抗性攻击添加在干净样本上的微小扰动视为噪声,通过使用图像降噪等预处理方法尝试将对抗图像转换为干净图像,然后在测试时直接将它们输入分类器。这类方法的局限性是预处理操作的程度有限,较小程度的改变可能无法有效转换对抗样本,而较大程度的预处理操作又可能影响干净样本的分类结果。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种基于显著性对抗训练的对抗样本防御方法,该方法通过训练具有对抗鲁棒性的模型提升针对对抗样本的识别准确率。
为达到上述目的,本发明实施例提出了基于显著性对抗训练的对抗样本防御方法,包括以下步骤:步骤S1,利用投影梯度下降法生成对抗样本;步骤S2,利用可解释性方法获取输入样本的显著图;步骤S3,将所述显著图划分为预设数量的小块样本,并计算每个小块样本的平均显著值,每个小块样本根据对应位置的平均显著值进行JPEG压缩;步骤S4,将显著性压缩后的对抗样本作为训练数据进行对抗训练。
本发明实施例的基于显著性对抗训练的对抗样本防御方法,通过结合对抗训练和预处理防御方法,在对抗样本上进行战略性地预处理操作,并进一步结合对抗训练,改进模型针对对抗样本的识别效果,解决了对抗样本导致基于机器学习的图像分类模型产生异常输出的技术问题,同时,在对干净样本的识别结果影响尽可能小的的情况下,提升模型对于对抗样本的识别准确率。
另外,根据本发明上述实施例的基于显著性对抗训练的对抗样本防御方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述步骤S1具体包括:进行迭代攻击前,利用投影梯度下降法在输入样本上随机添加扰动范围[-∈,∈]内的初始扰动值e,在随机点的基础上沿着损失函数的梯度的方向进行多次扰动值大小为α≤∈的迭代扰动,并将所述扰动值投影到扰动范数球内,生成所述对抗样本。
进一步地,在本发明的一个实施例中,基于投影梯度下降法的无目标对抗样本生成公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110120845.4/2.html,转载请声明来源钻瓜专利网。