[发明专利]一种对抗样本的识别方法及相关装置有效
| 申请号: | 202080004866.3 | 申请日: | 2020-11-17 |
| 公开(公告)号: | CN112673381B | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 易平;刘浩文;林孝盈 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06V10/764;G06V10/82;G06K9/62 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 对抗 样本 识别 方法 相关 装置 | ||
本申请实施例提供一种防御对抗样本的方法及相关装置,该方法通过将目标神经网络的卷积层的结果输出到反馈重构网络中重构得到重构样本,使得对抗样本对目标神经网络的攻击会干扰自编码器的重构从而放大重构样本的误差,使得对抗样本更容易被检测出来,提高了对抗样本的检测准确率,减少了假阳性率。并且,本申请实施例使用对抗样本检测器通过学习对抗样本与非对抗样本各自的重构误差来判别输入样本是否为对抗样本,由于重构误差会放大对抗样本扰动,所以检测灵敏度更高。
技术领域
本申请实施例涉及神经网络技术领域,尤其涉及一种防御对抗样本的识别方法及相关装置。
背景技术
深度神经网络在机器学习领域的许多任务中取得了巨大的成功,例如图像分类、语音识别、自然语言处理、医疗健康等。
然而,深度神经网络很容易受到对抗样本的攻击。对抗样本,即在数据集中通过故意添加细微的干扰所形成的输入样本。对抗样本能够导致机器学习模型以高置信度给出一个错误的输出。对抗样本与真实样本在外观上没有区别,但能够攻击最先进的机器学习模型,使其得出错误的结果。
因此,机器学习模型需要能够防御对抗样本,避免对抗样本导致的错误结果。
发明内容
第一方面,本申请实施例提供一种对抗样本的识别方法,包括:获取输入样本;根据所述输入样本,通过自编码器得到重构样本,所述自编码器以目标神经网络的卷积层为编码器,以反馈重构网络为解码器;根据所述输入样本和所述重构样本,通过对抗样本检测器得到所述输入样本的检测结果,所述对抗样本检测器是通过第一训练样本和第二训练样本训练获得,所述第一样本包括非对抗样本及其重构样本,以及第一样本标签;所述第二样本包括对抗样本及其重构样本,以及第二样本标签;根据检测结果确定所述输入样本的样本类型。
本申请实施例提供一种对抗样本的识别方法及相关装置,该方法通过将目标神经网络的卷积层的结果输出到反馈重构网络中重构得到重构样本,使得对抗样本对目标神经网络的攻击会干扰自编码器的重构从而放大重构样本的误差,使得对抗样本更容易被检测出来,提高了对抗样本的检测准确率,减少了假阳性率。并且,本申请实施例使用对抗样本检测器通过学习对抗样本与非对抗样本各自的重构误差来判别输入样本是否为对抗样本,由于重构误差会放大对抗样本扰动,所以检测灵敏度更高。
结合第一方面,在本申请实施例的一种实现方式中,所述根据所述输入样本,通过自编码器得到重构样本之后,所述根据所述输入样本和所述重构样本,通过对抗样本检测器得到所述输入样本的检测结果之前,所述方法还包括:通过所述自编码器对所述重构样本进行至少一次循环重构,所述循环重构为通过所述自编码器对所述重构样本进行处理。
结合第一方面,在本申请实施例的一种实现方式中,所述对抗样本检测器为二分类器。
结合第一方面,在本申请实施例的一种实现方式中,所述通过自编码器得到重构样本之前,所述方法还包括:获取训练集,所述训练集为非对抗样本组成的集合;通过所述训练集同时对所述目标神经网络以及所述自编码器训练,所述目标神经网络包含所述卷积层与目标分类器。
结合第一方面,在本申请实施例的一种实现方式中,通过所述训练集同时对所述目标神经网络以及所述自编码器训练中,训练过程的损失函数为:
其中,Xtrain为训练集,|Xtrain|为训练集的数据数量,x为训练集中的非对抗样本,ae(x)为根据训练集中的非对抗样本通过所述自编码器得到的训练用重构样本,为相对熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080004866.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:不间断电源系统及其驱动方法
- 下一篇:一种信号处理方法、装置以及存储介质





