[发明专利]一种数据不平衡场景下的恶意流量检测方法在审

专利信息
申请号: 202110249229.9 申请日: 2021-03-08
公开(公告)号: CN112990286A 公开(公告)日: 2021-06-18
发明(设计)人: 戚岱杰;窦凤虎;郑超;王媛娣 申请(专利权)人: 中电积至(海南)信息技术有限公司
主分类号: G06K9/62 分类号: G06K9/62;H04L29/06
代理公司: 重庆百润洪知识产权代理有限公司 50219 代理人: 陈付玉
地址: 571924 海南省海口市澄迈县老城*** 国省代码: 海南;46
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 不平衡 场景 恶意 流量 检测 方法
【说明书】:

发明公开了一种数据不平衡场景下的恶意流量检测方法,包括以下操作步骤:S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本。涉及网络信息安全技术领域。该数据不平衡场景下的恶意流量检测方法,通过使用四元组来标识每个网络流,提取每条流的统计特征并做标准化处理,将端口信息、统计特征联合作为特征向量,构成训练集和测试集,在算法层面,通过将k‑means聚类算法与SMOTE过采样技术相结合,其设法通过仅在安全区域进行过采样来避免产生噪声,重点放在类别之间的不平衡和类别内部的不平衡,通过增加少数样本稀疏区域的少数类样本来对抗少数类样本分散的问题,扩充了少数类的样本量,为分类模型提供良好的训练数据。

技术领域

本发明涉及网络信息安全技术领域,具体为一种数据不平衡场景下的恶意流量检测方法。

背景技术

通常情况下,从现实场景中获取的数据大多都是不平衡的,少数类的样本数量往往远少于多数类样本,然而属于少数类的样本却往往具有更大的意义,例如欺诈检测、故障诊断以及网络入侵检测等领域,在机器学习领域类别不平衡问题一直受到研究人员们的关注,因此需要对该类恶意流量进行检测,针对该问题发展出了多种解决方法,主要可以分为四类:数据抽样、代价敏感学习、决策边界移动和集成学习方法,但是当传统的学习算法应用于不平衡数据集时,少数类很容易发生错误分类。

目前,基于规则的恶意流量检测方法由于其在检测效果、检测效率以及人工干预上的局限性,很难适用于现如今海量网络数据的情况,随着人工智能技术的发展,越来越多的人使用机器学习或深度学习方法进行恶意流量检测,目前在恶意流量检测领域所用的训练数据可以分为正常流量样本和恶意流量样本,然而在实际网络环境中,恶意流量占比很小,因此存在着类别不平衡的问题,使用一般的学习算法进行分类时,恶意流量的召回率较低,对少数类的区分能力不足,在正负样本不平衡情况下,并不能保证恶意流量分类的准确性。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种数据不平衡场景下的恶意流量检测方法,解决了现有的恶意流量检测方法中,使用一般的学习算法进行分类时,恶意流量的召回率较低,对少数类的区分能力不足,在正负样本不平衡情况下,并不能保证恶意流量分类的准确性的问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:一种数据不平衡场景下的恶意流量检测方法,包括以下操作步骤:

S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;

S2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;

S3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;

S4、使用SMOTE进行过采样:使用SMOTE进行对S3中分配好的样本进行过采样,根据指定的用于构建合成样本的簇内最近邻居数进行插值,进而生成新样本;

S5、训练基于G-mean改进过的ELM分类器:使用新构建的数据集训练G-mean改进过的ELM分类器;

为了改善经典的ELM算法在不平衡数据学习中的不足,基于G-mean定义了新的损失函数,提出了新的ELM算法,其中G-mean是广泛应用于不平衡数据学习中的评价度量指标,其定义如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电积至(海南)信息技术有限公司,未经中电积至(海南)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110249229.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top