[发明专利]一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法在审

申请号：	202110182166.X	申请日：	2021-02-09
公开（公告）号：	CN112800426A	公开（公告）日：	2021-05-14
发明（设计）人：	梁军淼;宁振虎;曹东芝;公备	申请（专利权）人：	北京工业大学
主分类号：	G06F21/56	分类号：	G06F21/56;G06K9/62
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于智能算法 cgan 恶意代码数据均衡处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法，其特征在于：包括以下步骤，

步骤1，构建恶意代码生成模型；

生成对抗网络GAN由生成网络G和判别网络D两部分构成，G和D动态博弈：G用生成样本欺骗D从而以假乱真，而D不断提高判别能力以区分真实数据和G合成的数据，直到最后二者达到纳什平衡，即理论上G生成的数据分布P_g和真实的数据分布P_data相等；条件式生成对抗网络cGAN通过参数的控制来指导数据的生成，即在原有的网络结构下，对判别器和生成器的输入都加上一个额外的辅助信息y，这个y是各数据的分类标签，辅助信息y即为恶意代码的家族标签；在生成网络与判别网络不断对抗、迭代优化后，生成器做为恶意代码的生成模型；

步骤1.1，在生成网络中，从前置随机分布p_z(z)中取出随机输入z，再与恶意代码家族标签y进行拼接组合，形成一个全新的隐含表示；

步骤1.2，在判别网络中，真实恶意代码样本或生成的恶意代码都会和家族标签y共同输入以进行判别；

步骤1.3，判别网络D通过多次迭代学习来提高自己的判别真假样本能力，生成网络G又通过多次迭代学习来提高自己的仿造能力；二者动态对抗、在迭代过程中不断优化，当D最后无法区别出真实数据和生成数据时，即D已经将生成的数据G(z)当成了真实的数据时，则认为模型达到了最优，并且认为G已经得到了真实样本数据完整的分布；此时的生成网络即为恶意代码的生成模型，生成数据已经被看作新的恶意代码样本数据；

步骤2，采用群智能算法计算恶意代码的可接受最佳初始样本比例；

采用典型的群智能算法PSO算法来寻找不同类别恶意代码家族的可接受最佳初始权重；假设恶意代码家族数目为M，重采样权重为W_i，采样权重的组合可看作群智能算法中个体的位置，由下式给出：

position＝(W₁,W₂,...,W_n)

将训练模型的准确性作为目标函数；

步骤3，生成各家族恶意代码，构建相对均衡的恶意代码数据集；

根据PSO算法计算的恶意代码家族的最佳样本比例，通过cGAN模型对各家族样本进行不同程度的数据增强，即用生成模型进行各类样本生成，从而构建数据均衡的恶意代码样本集；

步骤3.1依据步骤2计算的最佳初始样本比例，使用步骤1.3训练好的恶意代码生成模型进行数据生成；

步骤3.2生成数据集与原始数据集共同构建相对均衡的恶意代码数据集。

2.根据权利要求1所述的一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法，其特征在于：步骤3中，假设用于分类的恶意代码数据集分属于M个类别，设X＝(X₁,X₂,...,X_max,...X_m)为各家族训练样本，其中X_max为家族样本数量最多的一个恶意代码家族，C＝(C₁,C₂,...,C_m)为由群体智能方法获得的各恶意代码家族的最优样本比例，m∈N+，m为正整数；

按照原数据集中家族样本量最多得一类X_max以及某类数据增强权重W_i和该类样本数量X_i计算该类样本需生成的样本量；具体的计算公式如下所示：

Y_i＝X_maxW_i-X_i

数据增强权重W_i的计算公式如下：

其中，Y_i为第i类家族需生成的样本量，C_i为最优样本比例中的第i个值，C_max为最优样本比例中样本数量最多一类的值，i∈[1,M]，i为本样本的类别，M为类别数；

得到Y＝(Y₁,Y₂,...,Y_m)为各类家族样本需生成的数据量，构建得各家族样本数据相对均衡的恶意代码数据集X＝(X₁+Y₁,X₂+Y₂,...,X_max,...X_m+Y_m)。