[发明专利]一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法在审

专利信息
申请号: 202110182166.X 申请日: 2021-02-09
公开(公告)号: CN112800426A 公开(公告)日: 2021-05-14
发明(设计)人: 梁军淼;宁振虎;曹东芝;公备 申请(专利权)人: 北京工业大学
主分类号: G06F21/56 分类号: G06F21/56;G06K9/62
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 智能 算法 cgan 恶意代码 数据 均衡 处理 方法
【权利要求书】:

1.一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法,其特征在于:包括以下步骤,

步骤1,构建恶意代码生成模型;

生成对抗网络GAN由生成网络G和判别网络D两部分构成,G和D动态博弈:G用生成样本欺骗D从而以假乱真,而D不断提高判别能力以区分真实数据和G合成的数据,直到最后二者达到纳什平衡,即理论上G生成的数据分布Pg和真实的数据分布Pdata相等;条件式生成对抗网络cGAN通过参数的控制来指导数据的生成,即在原有的网络结构下,对判别器和生成器的输入都加上一个额外的辅助信息y,这个y是各数据的分类标签,辅助信息y即为恶意代码的家族标签;在生成网络与判别网络不断对抗、迭代优化后,生成器做为恶意代码的生成模型;

步骤1.1,在生成网络中,从前置随机分布pz(z)中取出随机输入z,再与恶意代码家族标签y进行拼接组合,形成一个全新的隐含表示;

步骤1.2,在判别网络中,真实恶意代码样本或生成的恶意代码都会和家族标签y共同输入以进行判别;

步骤1.3,判别网络D通过多次迭代学习来提高自己的判别真假样本能力,生成网络G又通过多次迭代学习来提高自己的仿造能力;二者动态对抗、在迭代过程中不断优化,当D最后无法区别出真实数据和生成数据时,即D已经将生成的数据G(z)当成了真实的数据时,则认为模型达到了最优,并且认为G已经得到了真实样本数据完整的分布;此时的生成网络即为恶意代码的生成模型,生成数据已经被看作新的恶意代码样本数据;

步骤2,采用群智能算法计算恶意代码的可接受最佳初始样本比例;

采用典型的群智能算法PSO算法来寻找不同类别恶意代码家族的可接受最佳初始权重;假设恶意代码家族数目为M,重采样权重为Wi,采样权重的组合可看作群智能算法中个体的位置,由下式给出:

position=(W1,W2,...,Wn)

将训练模型的准确性作为目标函数;

步骤3,生成各家族恶意代码,构建相对均衡的恶意代码数据集;

根据PSO算法计算的恶意代码家族的最佳样本比例,通过cGAN模型对各家族样本进行不同程度的数据增强,即用生成模型进行各类样本生成,从而构建数据均衡的恶意代码样本集;

步骤3.1依据步骤2计算的最佳初始样本比例,使用步骤1.3训练好的恶意代码生成模型进行数据生成;

步骤3.2生成数据集与原始数据集共同构建相对均衡的恶意代码数据集。

2.根据权利要求1所述的一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法,其特征在于:步骤3中,假设用于分类的恶意代码数据集分属于M个类别,设X=(X1,X2,...,Xmax,...Xm)为各家族训练样本,其中Xmax为家族样本数量最多的一个恶意代码家族,C=(C1,C2,...,Cm)为由群体智能方法获得的各恶意代码家族的最优样本比例,m∈N+,m为正整数;

按照原数据集中家族样本量最多得一类Xmax以及某类数据增强权重Wi和该类样本数量Xi计算该类样本需生成的样本量;具体的计算公式如下所示:

Yi=XmaxWi-Xi

数据增强权重Wi的计算公式如下:

其中,Yi为第i类家族需生成的样本量,Ci为最优样本比例中的第i个值,Cmax为最优样本比例中样本数量最多一类的值,i∈[1,M],i为本样本的类别,M为类别数;

得到Y=(Y1,Y2,...,Ym)为各类家族样本需生成的数据量,构建得各家族样本数据相对均衡的恶意代码数据集X=(X1+Y1,X2+Y2,...,Xmax,...Xm+Ym)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110182166.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top