[发明专利]一种在类别样本数量不均衡情况下的恶意样本检测方法在审

申请号：	202210187808.X	申请日：	2022-02-28
公开（公告）号：	CN114548305A	公开（公告）日：	2022-05-27
发明（设计）人：	刘洋;卞超轶;陈亘;金珂	申请（专利权）人：	北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00;G06F21/56;G06F8/53;G06F17/18
代理公司：	北京君泰水木知识产权代理有限公司 11906	代理人：	王志远;张爽
地址：	100193 北京市海淀区东***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种类别样本数量均衡情况恶意检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种在类别样本数量不均衡情况下的恶意样本检测方法，其特征在于，步骤包括：

S1，对类别样本数量不均衡的原始样本进行特征提取，得到特征提取后的样本作为训练数据；

S2，使用分类算法得到训练数据的至少两个分类预测结果；其中，所述训练数据包括未标记数据；

设置采样参数组集，所述采样参数组集由若干采样参数组构成，每个采样参数组包括对训练数据中各类别样本进行采样时使用的采样参数；

将采样参数组集中，使得所有分类预测结果之间相似度最高的采样参数组作为最优采样参数组；

S3，根据最优采样参数组对训练数据进行采样，对采样得到的样本进行训练。

2.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法，其特征在于，在步骤S2中，所述分类算法包括K近邻算法，K近邻算法能够根据最邻近的K个实例中多数属于的类别，确定样本的类别。

3.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法，其特征在于，在步骤S2中，还包括：

S21，获得分类预测结果之间的结构相似度Q_m；

S22，获得分类预测结果之间的分布相似度Q_n；

S23，根据结构相似度Q_m和分布相似度Q_m得到分类预测结果之间的相似度Q。

4.如权利要求3所述的在类别样本数量不均衡情况下的恶意样本检测方法，其特征在于，所述结构相似度Q_m的计算方法为：

将分类预测结果的类别根据包含的样本数量进行降序排序，作为分类预测结果的分类排序；根据分类排序，由高到低的设置对应类别的权重；

对比所有分类预测结果的分类排序，当不同的分类预测结果的同一序列位置上出现相同类别时，将所述类别设置为相似类别；

设置分类预测结果中所有类别的权重之和为∑W_j，相似类别的权重之和为∑W_i；

则可得到结构相似度

5.如权利要求3所述的在类别样本数量不均衡情况下的恶意样本检测方法，其特征在于，所述分布相似度Q_n的计算方法为：

设置在第一分类预测结果的第r类别中的样本集合为R₁，第二分类预测结果的第r类别中的样本集合为R₂，R₁和R₂之间样本ID重合的集合为R₀，

设置第一预测结果和第二预测结果的第r类别样本的Jacaard相似系数

设置共有δ个类别，则得到第一预测结果和第二预测结果的分布相似度

6.如权利要求3所述的在类别样本数量不均衡情况下的恶意样本检测方法，其特征在于，在步骤S23中，所有分类预测结果之间的相似度Q为结构相似度Q_m和分布相似度Q_n的加权和。

7.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法，其特征在于，在步骤S1中，还包括：

步骤S11，从原始样本中提取可见字符并将原始样本文件反汇编得到汇编文件；

步骤S12，通过搜索引擎自动筛选出的重要字符串，提取出汇编文件常用指令的N-gram特征，将两者进行合并作为最终特征。

8.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法，其特征在于，在步骤S3中，采样后使用LightGBM模型进行训练，最终得到训练好的模型。

9.如权利要求1所述的在类别样本数量不均衡情况下的恶意样本检测方法，其特征在于，在步骤S2中，根据类别样本数量不均衡情况设置采样参数组集，其中，对多数类样本采样参数设置为大于0小于1.0，而对少数类样本采样参数设置为大于1小于最多数类的样本数除以类别数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司，未经北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210187808.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种抗炎水包油包水乳液及其应用
下一篇：一种巨厚顶板上断下切沿空留巷爆破方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种在类别样本数量不均衡情况下的恶意样本检测方法在审

专利文献下载