[发明专利]一种基于生成对抗网络的模型安全性检测方法有效

专利信息
申请号: 202110400917.0 申请日: 2021-04-14
公开(公告)号: CN112989361B 公开(公告)日: 2023-10-20
发明(设计)人: 高英;吴烘锐;陈吉祥;缪宏乐 申请(专利权)人: 华南理工大学
主分类号: G06F21/57 分类号: G06F21/57
代理公司: 重庆飞思明珠专利代理事务所(普通合伙) 50228 代理人: 李宁
地址: 510000*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 生成 对抗 网络 模型 安全性 检测 方法
【权利要求书】:

1.一种基于生成对抗网络的模型安全性检测方法,其特征在于,采用的具体步骤为:

步骤一:设定行为相似度安全阈值δ;

步骤二:构建初始化生成器G和替代模型D;

步骤三:进行逐轮迭代,计算替代模型D和被测模型T之间的行为相似度μ,达到设定值后进入下一步;

步骤四:评估被测模型T的安全性。

2.根据权利要求1所述基于生成对抗网络的模型安全性检测方法,其特征在于:所述步骤一具体为,行为相似度安全阈值δ,视使用中对被测模型的安全性要求高低而定,0δ≤1,δ越大,表示安全性要求等级越低,反之表示安全性要求等级越高。

3.根据权利要求1所述基于生成对抗网络的模型安全性检测方法,其特征在于:所述步骤二具体为,生成器G的输入数据为噪声数据z和标签数据L拼接而成,其中z服从标准正态分布,均值为0,方差为1,长度为NSize;标签数据L为预标记类别的OneHot编码,编码长度为CNum,由此,输入为[z,L],在单次迭代中,G的输入形状为(BSize,NSize+CNum),输出形状与被测模型T的输入的形状相同,由此可以设计生成器的人工神经网络模型,生成器G选取的模型种类不做限制;

替代模型D由于要学习被测模型T的行为模式,故替代模型D的输入和输出的形状与被测模型T相同,替代模型D所选取的人工神经网络的类别同样不做限制。

4.根据权利要求1所述基于生成对抗网络的模型安全性检测方法,其特征在于,所述步骤三具体为:

3.1、噪声数据和标签数据的生成

噪声数据z从标准正态分布(均值为0,方差为1)中随机抽取,

标签数据L为预标记类别的OneHot编码,预标记类别的取值为{0,1,2,…,CNum-1},预标记类别的取值决定了编码中取值1的位置,其它位置用0填充,在这一过程中,生成的数据量为BSize条,其中每一种预标记类别的数据有BSize/CNum条;

3.2、合成数据X的生成

将3.1中得到的噪声数据和标签数据输入到生成器G中,获得输出

为避免中存在数据不符合输入要求,在输入到模型前需要对进行规范化,解决数据不合法问题,利用最大最小规范化方法对进行规范化,使数据分布到值域内,得到最后的合成数据X。

最大最小规范化:

为方便表述,这里假设X中数据的取值范围为[bot,top]。

其中,表示中的最小值,表示中的最大值,表示中第i行,第j列的数据,Xi,j表示X中第i行,第j列的数据,bot为最小合法取值,top为最大合法取值;

最终,X表示为:X=G(z,L,scaler),由z,L,scaler共同决定,其中scaler为一种规范化方法;经过转换,X中的数据的值能更好分布在值域范围内;此时,X中带有BSize条合法样本;

3.3、获取合成数据X的真实标签Y

将3.2中得到的合成数据X输入到被测模型T中,得到BSize条真实标签Y=T(X);

3.4、获取合成数据X的伪标签F

将3.2步骤中得到的合成数据X输入到替代模型D中,得到BSize条伪标签F=D(X);

3.5更新替代模型D

为使得在更新完替代模型D后,替代模型D的行为更加接近被测模型T,则需要使得D(X)与T(X)的差别尽可能的小,定义LossD为替代模型D的损失,则:

当Y表示类型标签时,LossD的计算公式如下:

LossD=CE(D(X),Y)

当Y表示概率标签时,LossD的计算公式如下:

LossD=CE(D(X),Lable(Y))+MSE(D(X),Y)

其中Lable(·)表示将概率标签转化对应类型的onehot编码的函数,即对应类型位置上的值为1,其余位置上的值为0,CE(·)表示交叉熵损失函数,它可以量化两个变量的相关程度,越小表示两者的相关性越大,MSE(·)表示均方误差函数,用于衡量两个变量之间的距离,越小表示两者越相近;

优化LossD并更新替代模型D,使到替代模型D的输出往模型T输出的方向变化,以达到逐渐逼近T功能的目的;

3.6、更新生成器G

生成器G的主要目的是分布更加广泛,涉及类别更丰富的合成数据,并且如果生成的数据对于替代模型D来说是新颖的,则替代模型D更有可能在该次学习中获得知识;

为达到生成多类别的数据,设计损失项lossG1为:

LossG1=CE(T(G(z,L,scaler),L)

上式中由于被测模型T的结构及参数无法获取,无法直接计算求得对应的梯度信息,使用D(G(z,L,scaler))来近似替代T(G(z,L,scaler)),因为替代模型D的输出随着迭代的不断进行,会趋于与T的输出相近,同时替代模型D的网络结构和参数信息已知,对应的梯度可求;

LossG1=CE(D(G(z,L,scaler)),L)

如此优化lossG1,提高被测模型T输出的类别与预设标签L的关联程度,间接利用预设标签控制模型T的输出,更新生成器G后,利用不同的预设标签可以使得生成器G生成的数据对应的类别更丰富;

为获取对新颖的数据,生成器G生成的数据对应的真实标签应尽可能与模型D给出的不同,设计算损失项lossG2为:

LossG2=e-LossD

上式LossD在步骤3.5中有说明,用于衡量D与T对同一输入的输出差异,优化LossG2将扩大该差异,即生成器G趋于生成无法被替代模型D正确识别的数据,产生与优化LossD互相“对抗”的效果,如此,设计生成器G最终的损失函数LossG为:

LossG=LossG1+LossG2

优化LossG,更新生成器G,将使生成器G趋于产生多类别的,无法被模型D识别的数据,提高替代模型D学习“新知识”的机会和效率;

3.7、计算替代模型D与被测模型T行为相似度μ

获取真实数据X′,分别计算T(X′),D(X′),计算

其中Count(·)为计数函数,μ表示对于真实数据X′,被测模型T和替代模型D的输出结果相同的样本数占所有样本数的比率,μ越大表示被测模型T和替代模型D行为相似度越高;

3.8、重复执行步骤3.1-3.7,直到μ在多轮迭代中没有得到更新,此时认为μ达到最高。

5.根据权利要求1所述基于生成对抗网络的模型安全性检测方法,其特征在于:所述步骤四具体为,根据μ和安全阈值δ的大小关系,有两种情况:

μ≤δ,表示被测模型T和替代模型D的行为相似度未超过对应的安全阈值,即使用此检测方法训练出来的替代模型符合安全要求,被测模型具有在该安全等级下防御模型窃取攻击的能力;

μδ,表示被测模型T和替代模型D的行为相似度超过对应的安全阈值,即使用此检测方法训练出来的替代模型不符合安全要求,被测模型不具有在该安全等级下防御模型窃取攻击的能力。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110400917.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top