[发明专利]一种在类别样本数量不均衡情况下的恶意样本检测方法在审
申请号: | 202210187808.X | 申请日: | 2022-02-28 |
公开(公告)号: | CN114548305A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 刘洋;卞超轶;陈亘;金珂 | 申请(专利权)人: | 北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G06F21/56;G06F8/53;G06F17/18 |
代理公司: | 北京君泰水木知识产权代理有限公司 11906 | 代理人: | 王志远;张爽 |
地址: | 100193 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 类别 样本 数量 均衡 情况 恶意 检测 方法 | ||
1.一种在类别样本数量不均衡情况下的恶意样本检测方法,其特征在于,步骤包括:
S1,对类别样本数量不均衡的原始样本进行特征提取,得到特征提取后的样本作为训练数据;
S2,使用分类算法得到训练数据的至少两个分类预测结果;其中,所述训练数据包括未标记数据;
设置采样参数组集,所述采样参数组集由若干采样参数组构成,每个采样参数组包括对训练数据中各类别样本进行采样时使用的采样参数;
将采样参数组集中,使得所有分类预测结果之间相似度最高的采样参数组作为最优采样参数组;
S3,根据最优采样参数组对训练数据进行采样,对采样得到的样本进行训练。
2.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法,其特征在于,在步骤S2中,所述分类算法包括K近邻算法,K近邻算法能够根据最邻近的K个实例中多数属于的类别,确定样本的类别。
3.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法,其特征在于,在步骤S2中,还包括:
S21,获得分类预测结果之间的结构相似度Qm;
S22,获得分类预测结果之间的分布相似度Qn;
S23,根据结构相似度Qm和分布相似度Qm得到分类预测结果之间的相似度Q。
4.如权利要求3所述的在类别样本数量不均衡情况下的恶意样本检测方法,其特征在于,所述结构相似度Qm的计算方法为:
将分类预测结果的类别根据包含的样本数量进行降序排序,作为分类预测结果的分类排序;根据分类排序,由高到低的设置对应类别的权重;
对比所有分类预测结果的分类排序,当不同的分类预测结果的同一序列位置上出现相同类别时,将所述类别设置为相似类别;
设置分类预测结果中所有类别的权重之和为∑Wj,相似类别的权重之和为∑Wi;
则可得到结构相似度
5.如权利要求3所述的在类别样本数量不均衡情况下的恶意样本检测方法,其特征在于,所述分布相似度Qn的计算方法为:
设置在第一分类预测结果的第r类别中的样本集合为R1,第二分类预测结果的第r类别中的样本集合为R2,R1和R2之间样本ID重合的集合为R0,
设置第一预测结果和第二预测结果的第r类别样本的Jacaard相似系数
设置共有δ个类别,则得到第一预测结果和第二预测结果的分布相似度
6.如权利要求3所述的在类别样本数量不均衡情况下的恶意样本检测方法,其特征在于,在步骤S23中,所有分类预测结果之间的相似度Q为结构相似度Qm和分布相似度Qn的加权和。
7.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法,其特征在于,在步骤S1中,还包括:
步骤S11,从原始样本中提取可见字符并将原始样本文件反汇编得到汇编文件;
步骤S12,通过搜索引擎自动筛选出的重要字符串,提取出汇编文件常用指令的N-gram特征,将两者进行合并作为最终特征。
8.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法,其特征在于,在步骤S3中,采样后使用LightGBM模型进行训练,最终得到训练好的模型。
9.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法,其特征在于,在步骤S2中,根据类别样本数量不均衡情况设置采样参数组集,其中,对多数类样本采样参数设置为大于0小于1.0,而对少数类样本采样参数设置为大于1小于最多数类的样本数除以类别数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司,未经北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210187808.X/1.html,转载请声明来源钻瓜专利网。