[发明专利]一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法在审
| 申请号: | 202110182166.X | 申请日: | 2021-02-09 |
| 公开(公告)号: | CN112800426A | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 梁军淼;宁振虎;曹东芝;公备 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 算法 cgan 恶意代码 数据 均衡 处理 方法 | ||
1.一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法,其特征在于:包括以下步骤,
步骤1,构建恶意代码生成模型;
生成对抗网络GAN由生成网络G和判别网络D两部分构成,G和D动态博弈:G用生成样本欺骗D从而以假乱真,而D不断提高判别能力以区分真实数据和G合成的数据,直到最后二者达到纳什平衡,即理论上G生成的数据分布Pg和真实的数据分布Pdata相等;条件式生成对抗网络cGAN通过参数的控制来指导数据的生成,即在原有的网络结构下,对判别器和生成器的输入都加上一个额外的辅助信息y,这个y是各数据的分类标签,辅助信息y即为恶意代码的家族标签;在生成网络与判别网络不断对抗、迭代优化后,生成器做为恶意代码的生成模型;
步骤1.1,在生成网络中,从前置随机分布pz(z)中取出随机输入z,再与恶意代码家族标签y进行拼接组合,形成一个全新的隐含表示;
步骤1.2,在判别网络中,真实恶意代码样本或生成的恶意代码都会和家族标签y共同输入以进行判别;
步骤1.3,判别网络D通过多次迭代学习来提高自己的判别真假样本能力,生成网络G又通过多次迭代学习来提高自己的仿造能力;二者动态对抗、在迭代过程中不断优化,当D最后无法区别出真实数据和生成数据时,即D已经将生成的数据G(z)当成了真实的数据时,则认为模型达到了最优,并且认为G已经得到了真实样本数据完整的分布;此时的生成网络即为恶意代码的生成模型,生成数据已经被看作新的恶意代码样本数据;
步骤2,采用群智能算法计算恶意代码的可接受最佳初始样本比例;
采用典型的群智能算法PSO算法来寻找不同类别恶意代码家族的可接受最佳初始权重;假设恶意代码家族数目为M,重采样权重为Wi,采样权重的组合可看作群智能算法中个体的位置,由下式给出:
position=(W1,W2,...,Wn)
将训练模型的准确性作为目标函数;
步骤3,生成各家族恶意代码,构建相对均衡的恶意代码数据集;
根据PSO算法计算的恶意代码家族的最佳样本比例,通过cGAN模型对各家族样本进行不同程度的数据增强,即用生成模型进行各类样本生成,从而构建数据均衡的恶意代码样本集;
步骤3.1依据步骤2计算的最佳初始样本比例,使用步骤1.3训练好的恶意代码生成模型进行数据生成;
步骤3.2生成数据集与原始数据集共同构建相对均衡的恶意代码数据集。
2.根据权利要求1所述的一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法,其特征在于:步骤3中,假设用于分类的恶意代码数据集分属于M个类别,设X=(X1,X2,...,Xmax,...Xm)为各家族训练样本,其中Xmax为家族样本数量最多的一个恶意代码家族,C=(C1,C2,...,Cm)为由群体智能方法获得的各恶意代码家族的最优样本比例,m∈N+,m为正整数;
按照原数据集中家族样本量最多得一类Xmax以及某类数据增强权重Wi和该类样本数量Xi计算该类样本需生成的样本量;具体的计算公式如下所示:
Yi=XmaxWi-Xi
数据增强权重Wi的计算公式如下:
其中,Yi为第i类家族需生成的样本量,Ci为最优样本比例中的第i个值,Cmax为最优样本比例中样本数量最多一类的值,i∈[1,M],i为本样本的类别,M为类别数;
得到Y=(Y1,Y2,...,Ym)为各类家族样本需生成的数据量,构建得各家族样本数据相对均衡的恶意代码数据集X=(X1+Y1,X2+Y2,...,Xmax,...Xm+Ym)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110182166.X/1.html,转载请声明来源钻瓜专利网。





