[发明专利]一种数据不平衡场景下的恶意流量检测方法在审

专利信息
申请号: 202110249229.9 申请日: 2021-03-08
公开(公告)号: CN112990286A 公开(公告)日: 2021-06-18
发明(设计)人: 戚岱杰;窦凤虎;郑超;王媛娣 申请(专利权)人: 中电积至(海南)信息技术有限公司
主分类号: G06K9/62 分类号: G06K9/62;H04L29/06
代理公司: 重庆百润洪知识产权代理有限公司 50219 代理人: 陈付玉
地址: 571924 海南省海口市澄迈县老城*** 国省代码: 海南;46
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 不平衡 场景 恶意 流量 检测 方法
【权利要求书】:

1.一种数据不平衡场景下的恶意流量检测方法,其特征在于,包括以下操作步骤:

S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;

S2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;

S3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;

S4、使用SMOTE进行过采样:使用SMOTE进行对S3中分配好的样本进行过采样,根据指定的用于构建合成样本的簇内最近邻居数进行插值,进而生成新样本;

S5、训练基于G-mean改进过的ELM分类器:使用新构建的数据集训练G-mean改进过的ELM分类器;

为了改善经典的ELM算法在不平衡数据学习中的不足,基于G-mean定义了新的损失函数,提出了新的ELM算法,其中G-mean是广泛应用于不平衡数据学习中的评价度量指标,其定义如下:

假设给定训练集Φ={(xi,ti),ti∈ZM,i=1,2,…,N} (2);

其中Φ中有M类,xi是一条流的特征向量,ti∈RM是其对应的标签,式(1)中vj是在第j类的元素中正确分类的元素的数量,Vj是第j类样本的总量,训练集Φ也可以写成其中Φj代表第j类,因此每类的训练误差定义为:

其中ξ(x)表示第j类中样本x的分类误差,ξ(x)定义为ξ(x)=h(x)β-t(x),其中t(x)是样本x对应的标签,h(x)是隐藏层的输出,综上,可将传统的ELM的损失函数写作:

从式(4)可以看出,训练误差越小,分类精度越好,考虑到使用G-mean作为评价指标,可以重新设计损失函数,使其更适用于样本不平衡情况,根据Ξj的定义可知:

进而有,

根据式(1)可以得出:

由式(5)可以得出,每个类别的训练误差乘积越小,G-mean越大,因此最大化Gmean等价于最小化每个类别训练误差乘积,即且因此可以将基于G-mean的ELM的代价函数定义如下:

Minimize:

将式(3)带入可得:

Minimize:

最后将新的优化目标定义如下:

为了得到LGELM的最小值,需要通过梯度下降等迭代优化算法对式(8)进行求解,最后通过训练数据对改进的ELM模型进行训练,得到训练好的分类模型后对测试集进行测试,并使用G-mean作为评价分类性能的值;

S6、对测试集进行预测:输入测试集,使用训练好的ELM分类器对所有测试样本进行分类,并使用G-mean作为评价指标。

2.根据权利要求1所述的一种数据不平衡场景下的恶意流量检测方法,其特征在于:所述S1中对于数据集,根据四元组将其划分为不同的流,并提取每条流的统计特征,与端口信息合并作为总特征,对于分类型特征需要使用one-hot编码将其转换为多维向量,对于连续性特征需要对其进行标准化处理,最后得到数据集Φ={(xi,ti),ti∈RM,i=1,2,…,N},其中xi是每条流的特征向量,ti是xi对应的标签。

3.根据权利要求1所述的一种数据不平衡场景下的恶意流量检测方法,其特征在于:所述S1中采用标准的公开数据集,如KDD99、ISCX_VPN2016等,这些数据集被广泛用作各类算法的评估,并经过了众多研究人员的检验且标注完善。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电积至(海南)信息技术有限公司,未经中电积至(海南)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110249229.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top