[发明专利]一种在类别样本数量不均衡情况下的恶意样本检测方法在审
申请号: | 202210187808.X | 申请日: | 2022-02-28 |
公开(公告)号: | CN114548305A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 刘洋;卞超轶;陈亘;金珂 | 申请(专利权)人: | 北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G06F21/56;G06F8/53;G06F17/18 |
代理公司: | 北京君泰水木知识产权代理有限公司 11906 | 代理人: | 王志远;张爽 |
地址: | 100193 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 类别 样本 数量 均衡 情况 恶意 检测 方法 | ||
本申请提供一种在类别样本数量不均衡情况下的恶意样本检测方法,其步骤包括:对类别样本数量不均衡的原始样本进行特征提取,得到特征提取后的样本作为训练数据;使用分类算法得到训练数据的至少两个分类预测结果;其中,所述训练数据包括未标记数据;设置采样参数组集,所述采样参数组集由若干采样参数组构成,每个采样参数组包括对训练数据中各类别样本进行采样时使用的采样参数;将采样参数组集中,使得所有分类预测结果之间相似度最高的采样参数组作为最优采样参数组;根据最优采样参数组对训练数据进行采样。使用本申请能够同时对多数类进行降采样以及对少数类的进行过采样,达到提高了检测的泛化能力。
技术领域
本申请涉及网络信息安全技术领域,尤其涉及一种解决分类问题中类别不均衡条件下的恶意样本检测方法。
背景技术
近年来,不同家族的恶意文件如勒索软件、木马、病毒、挖矿程序等恶意软件不断涌现,对用户和机构带来了很多麻烦和经济的损失。为了提升海量恶意软件分析的高效性,需要对恶意软件的家族进行区分。在网络安全的分类器的应用中,绝大多数遇到的数据场景是样本类别不均衡的,其中,我们设置样本数目多的类别为多数类,样本数目较少的类别为少数类,在研究中能够发现,在通常的情况下,多数类的数据量会远远超过少数类的数据量,在巨大的数据量差距下,如果不对数据进行调整,就会导致分类器偏向多数类,而使得分类器的整体效果变差。而在数据不均衡的场景中,我们也可以发现,多数类虽然数量较多但往往包含大量冗余样本,而少数类虽然数量较少但往往含有更大的信息量。
随着科学技术的不断发展和安全形势的不断变化,恶意样本的数量呈指数级增长,变种更是层出不穷,因此,对恶意样本的检测将发挥越来越大的作用,传统采用的基于人工规则的检测方法,但这种方法开发效率比较低,泛化性比较差,为了更好的对海量数据进行总结和学习,现有技术中一般采用机器学习方法,能够提高检测的泛化能力。
基于机器学习的恶意样本检测场景中,分类器主要分为对正常样本和恶意样本的二分类和对不同恶意样本家族的多分类。其中,在二分类中,容易出现的问题是正常样本占比较多,而恶意样本占比较少,而在多分类中,容易出现的问题是部分家族样本占比较多,而个别家族样本非常少。由此可见,在恶意样本识别中经常会存在的类别不均衡的问题。现有解决分类问题中类别不均衡的主流方法之一为数据采样。具体来说,是对少数类样本进行过采样,以及对多数类样本进行降采样,但现有方法只能通过在训练集上进行采样,然后再通过其他标注数据进行对比选取,但在实际应用场景中,往往存在着大量的无标注数据,而上述方法无法很好的利用无标注数据,同时也由于无法提供使采样后类别样本数量能达到平衡优化的采样的超参数,使得分类的效果较差。
发明内容
为了解决上述问题,本申请提供一种在类别样本数量不均衡情况下的恶意样本检测方法,步骤包括:
S1,对类别样本数量不均衡的原始样本进行特征提取,得到特征提取后的样本作为训练数据;
S2,使用分类算法得到训练数据的至少两个分类预测结果;其中,所述训练数据包括未标记数据;
设置采样参数组集,所述采样参数组集由若干采样参数组构成,每个采样参数组包括对训练数据中各类别样本进行采样时使用的采样参数;
将采样参数组集中,使得所有分类预测结果之间相似度最高的采样参数组作为最优采样参数组;
S3,根据最优采样参数组对训练数据进行采样,对采样得到的样本进行训练。
其中,优选的,在步骤S2中,所述分类算法包括K近邻算法,K近邻算法能够根据最邻近的K个实例中多数属于的类别,确定样本的类别。
其中,优选的,在步骤S2中,还包括:
S21,获得分类预测结果之间的结构相似度Qm;
S22,获得分类预测结果之间的分布相似度Qn;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司,未经北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210187808.X/2.html,转载请声明来源钻瓜专利网。