[发明专利]一种基于生成对抗网络的模型安全性检测方法有效
申请号: | 202110400917.0 | 申请日: | 2021-04-14 |
公开(公告)号: | CN112989361B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 高英;吴烘锐;陈吉祥;缪宏乐 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F21/57 | 分类号: | G06F21/57 |
代理公司: | 重庆飞思明珠专利代理事务所(普通合伙) 50228 | 代理人: | 李宁 |
地址: | 510000*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 模型 安全性 检测 方法 | ||
1.一种基于生成对抗网络的模型安全性检测方法,其特征在于,采用的具体步骤为:
步骤一:设定行为相似度安全阈值δ;
步骤二:构建初始化生成器G和替代模型D;
步骤三:进行逐轮迭代,计算替代模型D和被测模型T之间的行为相似度μ,达到设定值后进入下一步;
步骤四:评估被测模型T的安全性。
2.根据权利要求1所述基于生成对抗网络的模型安全性检测方法,其特征在于:所述步骤一具体为,行为相似度安全阈值δ,视使用中对被测模型的安全性要求高低而定,0δ≤1,δ越大,表示安全性要求等级越低,反之表示安全性要求等级越高。
3.根据权利要求1所述基于生成对抗网络的模型安全性检测方法,其特征在于:所述步骤二具体为,生成器G的输入数据为噪声数据z和标签数据L拼接而成,其中z服从标准正态分布,均值为0,方差为1,长度为NSize;标签数据L为预标记类别的OneHot编码,编码长度为CNum,由此,输入为[z,L],在单次迭代中,G的输入形状为(BSize,NSize+CNum),输出形状与被测模型T的输入的形状相同,由此可以设计生成器的人工神经网络模型,生成器G选取的模型种类不做限制;
替代模型D由于要学习被测模型T的行为模式,故替代模型D的输入和输出的形状与被测模型T相同,替代模型D所选取的人工神经网络的类别同样不做限制。
4.根据权利要求1所述基于生成对抗网络的模型安全性检测方法,其特征在于,所述步骤三具体为:
3.1、噪声数据和标签数据的生成
噪声数据z从标准正态分布(均值为0,方差为1)中随机抽取,
标签数据L为预标记类别的OneHot编码,预标记类别的取值为{0,1,2,…,CNum-1},预标记类别的取值决定了编码中取值1的位置,其它位置用0填充,在这一过程中,生成的数据量为BSize条,其中每一种预标记类别的数据有BSize/CNum条;
3.2、合成数据X的生成
将3.1中得到的噪声数据和标签数据输入到生成器G中,获得输出
为避免中存在数据不符合输入要求,在输入到模型前需要对进行规范化,解决数据不合法问题,利用最大最小规范化方法对进行规范化,使数据分布到值域内,得到最后的合成数据X。
最大最小规范化:
为方便表述,这里假设X中数据的取值范围为[bot,top]。
其中,表示中的最小值,表示中的最大值,表示中第i行,第j列的数据,Xi,j表示X中第i行,第j列的数据,bot为最小合法取值,top为最大合法取值;
最终,X表示为:X=G(z,L,scaler),由z,L,scaler共同决定,其中scaler为一种规范化方法;经过转换,X中的数据的值能更好分布在值域范围内;此时,X中带有BSize条合法样本;
3.3、获取合成数据X的真实标签Y
将3.2中得到的合成数据X输入到被测模型T中,得到BSize条真实标签Y=T(X);
3.4、获取合成数据X的伪标签F
将3.2步骤中得到的合成数据X输入到替代模型D中,得到BSize条伪标签F=D(X);
3.5更新替代模型D
为使得在更新完替代模型D后,替代模型D的行为更加接近被测模型T,则需要使得D(X)与T(X)的差别尽可能的小,定义LossD为替代模型D的损失,则:
当Y表示类型标签时,LossD的计算公式如下:
LossD=CE(D(X),Y)
当Y表示概率标签时,LossD的计算公式如下:
LossD=CE(D(X),Lable(Y))+MSE(D(X),Y)
其中Lable(·)表示将概率标签转化对应类型的onehot编码的函数,即对应类型位置上的值为1,其余位置上的值为0,CE(·)表示交叉熵损失函数,它可以量化两个变量的相关程度,越小表示两者的相关性越大,MSE(·)表示均方误差函数,用于衡量两个变量之间的距离,越小表示两者越相近;
优化LossD并更新替代模型D,使到替代模型D的输出往模型T输出的方向变化,以达到逐渐逼近T功能的目的;
3.6、更新生成器G
生成器G的主要目的是分布更加广泛,涉及类别更丰富的合成数据,并且如果生成的数据对于替代模型D来说是新颖的,则替代模型D更有可能在该次学习中获得知识;
为达到生成多类别的数据,设计损失项lossG1为:
LossG1=CE(T(G(z,L,scaler),L)
上式中由于被测模型T的结构及参数无法获取,无法直接计算求得对应的梯度信息,使用D(G(z,L,scaler))来近似替代T(G(z,L,scaler)),因为替代模型D的输出随着迭代的不断进行,会趋于与T的输出相近,同时替代模型D的网络结构和参数信息已知,对应的梯度可求;
LossG1=CE(D(G(z,L,scaler)),L)
如此优化lossG1,提高被测模型T输出的类别与预设标签L的关联程度,间接利用预设标签控制模型T的输出,更新生成器G后,利用不同的预设标签可以使得生成器G生成的数据对应的类别更丰富;
为获取对新颖的数据,生成器G生成的数据对应的真实标签应尽可能与模型D给出的不同,设计算损失项lossG2为:
LossG2=e-LossD
上式LossD在步骤3.5中有说明,用于衡量D与T对同一输入的输出差异,优化LossG2将扩大该差异,即生成器G趋于生成无法被替代模型D正确识别的数据,产生与优化LossD互相“对抗”的效果,如此,设计生成器G最终的损失函数LossG为:
LossG=LossG1+LossG2
优化LossG,更新生成器G,将使生成器G趋于产生多类别的,无法被模型D识别的数据,提高替代模型D学习“新知识”的机会和效率;
3.7、计算替代模型D与被测模型T行为相似度μ
获取真实数据X′,分别计算T(X′),D(X′),计算
其中Count(·)为计数函数,μ表示对于真实数据X′,被测模型T和替代模型D的输出结果相同的样本数占所有样本数的比率,μ越大表示被测模型T和替代模型D行为相似度越高;
3.8、重复执行步骤3.1-3.7,直到μ在多轮迭代中没有得到更新,此时认为μ达到最高。
5.根据权利要求1所述基于生成对抗网络的模型安全性检测方法,其特征在于:所述步骤四具体为,根据μ和安全阈值δ的大小关系,有两种情况:
μ≤δ,表示被测模型T和替代模型D的行为相似度未超过对应的安全阈值,即使用此检测方法训练出来的替代模型符合安全要求,被测模型具有在该安全等级下防御模型窃取攻击的能力;
μδ,表示被测模型T和替代模型D的行为相似度超过对应的安全阈值,即使用此检测方法训练出来的替代模型不符合安全要求,被测模型不具有在该安全等级下防御模型窃取攻击的能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110400917.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海绵城市用雨水回渗收储设备
- 下一篇:一种防尾随AB互锁对开自动弧形门