[发明专利]一种数据不平衡场景下的恶意流量检测方法在审
| 申请号: | 202110249229.9 | 申请日: | 2021-03-08 |
| 公开(公告)号: | CN112990286A | 公开(公告)日: | 2021-06-18 |
| 发明(设计)人: | 戚岱杰;窦凤虎;郑超;王媛娣 | 申请(专利权)人: | 中电积至(海南)信息技术有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;H04L29/06 |
| 代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 陈付玉 |
| 地址: | 571924 海南省海口市澄迈县老城*** | 国省代码: | 海南;46 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 不平衡 场景 恶意 流量 检测 方法 | ||
1.一种数据不平衡场景下的恶意流量检测方法,其特征在于,包括以下操作步骤:
S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;
S2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;
S3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;
S4、使用SMOTE进行过采样:使用SMOTE进行对S3中分配好的样本进行过采样,根据指定的用于构建合成样本的簇内最近邻居数进行插值,进而生成新样本;
S5、训练基于G-mean改进过的ELM分类器:使用新构建的数据集训练G-mean改进过的ELM分类器;
为了改善经典的ELM算法在不平衡数据学习中的不足,基于G-mean定义了新的损失函数,提出了新的ELM算法,其中G-mean是广泛应用于不平衡数据学习中的评价度量指标,其定义如下:
假设给定训练集Φ={(xi,ti),ti∈ZM,i=1,2,…,N} (2);
其中Φ中有M类,xi是一条流的特征向量,ti∈RM是其对应的标签,式(1)中vj是在第j类的元素中正确分类的元素的数量,Vj是第j类样本的总量,训练集Φ也可以写成其中Φj代表第j类,因此每类的训练误差定义为:
其中ξ(x)表示第j类中样本x的分类误差,ξ(x)定义为ξ(x)=h(x)β-t(x),其中t(x)是样本x对应的标签,h(x)是隐藏层的输出,综上,可将传统的ELM的损失函数写作:
从式(4)可以看出,训练误差越小,分类精度越好,考虑到使用G-mean作为评价指标,可以重新设计损失函数,使其更适用于样本不平衡情况,根据Ξj的定义可知:
进而有,
根据式(1)可以得出:
由式(5)可以得出,每个类别的训练误差乘积越小,G-mean越大,因此最大化Gmean等价于最小化每个类别训练误差乘积,即且因此可以将基于G-mean的ELM的代价函数定义如下:
Minimize:
将式(3)带入可得:
Minimize:
最后将新的优化目标定义如下:
为了得到LGELM的最小值,需要通过梯度下降等迭代优化算法对式(8)进行求解,最后通过训练数据对改进的ELM模型进行训练,得到训练好的分类模型后对测试集进行测试,并使用G-mean作为评价分类性能的值;
S6、对测试集进行预测:输入测试集,使用训练好的ELM分类器对所有测试样本进行分类,并使用G-mean作为评价指标。
2.根据权利要求1所述的一种数据不平衡场景下的恶意流量检测方法,其特征在于:所述S1中对于数据集,根据四元组将其划分为不同的流,并提取每条流的统计特征,与端口信息合并作为总特征,对于分类型特征需要使用one-hot编码将其转换为多维向量,对于连续性特征需要对其进行标准化处理,最后得到数据集Φ={(xi,ti),ti∈RM,i=1,2,…,N},其中xi是每条流的特征向量,ti是xi对应的标签。
3.根据权利要求1所述的一种数据不平衡场景下的恶意流量检测方法,其特征在于:所述S1中采用标准的公开数据集,如KDD99、ISCX_VPN2016等,这些数据集被广泛用作各类算法的评估,并经过了众多研究人员的检验且标注完善。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电积至(海南)信息技术有限公司,未经中电积至(海南)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110249229.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





