[发明专利]基于注意力机制的可迁移的对抗样本攻击方法在审
| 申请号: | 202010630136.6 | 申请日: | 2020-07-03 |
| 公开(公告)号: | CN111898645A | 公开(公告)日: | 2020-11-06 |
| 发明(设计)人: | 宋井宽;黄梓杰;高联丽 | 申请(专利权)人: | 贵州大学;电子科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊 |
| 地址: | 55000*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 机制 迁移 对抗 样本 攻击 方法 | ||
本发明公开了一种基于注意力机制的可迁移的对抗样本攻击方法,该方法包括选择一个本地替代网络模型,并构建特征库将原始图片映射到特征空间中;采用基于动量累积的迭代快速梯度符号攻击方法将原始图片的特征远离原始类别区域,同时使其靠近目标类别区域;将攻击得到的对抗样本输入到黑盒分类模型中,误导模型输出目标类别。本发明通过利用三元组损失函数破坏被攻击模型特征空间中信息丰富的、模型主要关注的区域,解决在复杂数据集的分类任务中现有攻击方法存在的白盒目标攻击成功率低以及黑盒目标迁移率低的问题,在兼顾白盒与黑盒场景的情况下有效地实现误导分类模型。
技术领域
本发明属于对抗攻击技术领域,具体涉及一种基于注意力机制的可迁移的对抗样本攻击方法。
背景技术
随着深度学习的飞速发展,使得研究人员能够解决诸如图像分类、分割等很多计算机视觉任务。然而,由于对抗样本的出现,人们对于卷积神经网络的缺点投入了更加广泛的关注。对抗样本指的是通过在原始输入图片上加入一些人眼无法感知的、细微的扰动,使得卷积神经网络无法正确预测该图片。目前生成对抗样本的方法可通过攻击的目标或者期望分为非目标攻击和目标攻击,前者指的是攻击者的目标仅仅是使得分类模型给出错误预测即可,而后者是攻击方想要将预测结果改变为某些预先指定的目标标签。其次,通过攻击者对模型的了解程度可分为白盒攻击和黑盒攻击,在前者情况下攻击者拥有被攻击模型所有的信息,包括模型参数、结构等;而后者是攻击者无法获取模型的所有信息,仅仅能获取模型对应输入的预测结果。因此,对抗样本的迁移性成为了黑盒攻击的关键,迁移性指的是通过攻击某类模型生成的对抗样本可能能让其他模型也预测错误。
一般来说,对抗攻击通常是通过破坏分类模型的Softmax输出空间来生成对抗样本,由于这类方法的迁移性有限,后面越来越多研究提出了基于破坏模型特征空间的对抗攻击,然而这类方法在复杂数据集分类任务中要么存在着白盒目标攻击成功率低的问题,要么存在着黑盒目标迁移率低的问题。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于注意力机制的可迁移的对抗样本攻击方法,通过利用三元组损失函数(Triplet Loss)破坏被攻击模型特征空间中信息丰富的、模型主要关注的区域,解决在复杂数据集的分类任务中现有攻击方法存在的白盒目标攻击成功率低以及黑盒目标迁移率低的问题,在兼顾白盒与黑盒场景的情况下有效地实现误导分类模型。
为了达到上述发明目的,本发明采用的技术方案为:
一种基于注意力机制的可迁移的对抗样本攻击方法,包括以下步骤:
S1、选择一个本地替代网络模型,并构建特征库将原始图片映射到特征空间中;
S2、采用基于动量累积的迭代快速梯度符号攻击方法将原始图片的特征远离原始类别区域,同时使其靠近目标类别区域;
S3、将步骤S2攻击得到的对抗样本输入到黑盒分类模型中,误导模型输出目标类别。
进一步地,所述步骤S1中选择一个本地替代网络模型具体为:
选择一个用于图片分类的本地替代网络模型,选择分类网络的中间层作为浅层,选择分类网络的Softmax的前一层作为深层。
进一步地,所述步骤S1中构建特征库将原始图片映射到特征空间中具体为:
对本地替代网络模型的验证集中每个类别,分别在选择的分类网络的浅层和深层中计算所有被本地替代网络模型分类成功的图片的质心,构建不同层的特征库。
进一步地,所述计算所有被本地替代网络模型分类成功的图片的质心的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学;电子科技大学,未经贵州大学;电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010630136.6/2.html,转载请声明来源钻瓜专利网。





