[发明专利]一种数据不平衡场景下的恶意流量检测方法在审
申请号: | 202110249229.9 | 申请日: | 2021-03-08 |
公开(公告)号: | CN112990286A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 戚岱杰;窦凤虎;郑超;王媛娣 | 申请(专利权)人: | 中电积至(海南)信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;H04L29/06 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 陈付玉 |
地址: | 571924 海南省海口市澄迈县老城*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 不平衡 场景 恶意 流量 检测 方法 | ||
本发明公开了一种数据不平衡场景下的恶意流量检测方法,包括以下操作步骤:S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本。涉及网络信息安全技术领域。该数据不平衡场景下的恶意流量检测方法,通过使用四元组来标识每个网络流,提取每条流的统计特征并做标准化处理,将端口信息、统计特征联合作为特征向量,构成训练集和测试集,在算法层面,通过将k‑means聚类算法与SMOTE过采样技术相结合,其设法通过仅在安全区域进行过采样来避免产生噪声,重点放在类别之间的不平衡和类别内部的不平衡,通过增加少数样本稀疏区域的少数类样本来对抗少数类样本分散的问题,扩充了少数类的样本量,为分类模型提供良好的训练数据。
技术领域
本发明涉及网络信息安全技术领域,具体为一种数据不平衡场景下的恶意流量检测方法。
背景技术
通常情况下,从现实场景中获取的数据大多都是不平衡的,少数类的样本数量往往远少于多数类样本,然而属于少数类的样本却往往具有更大的意义,例如欺诈检测、故障诊断以及网络入侵检测等领域,在机器学习领域类别不平衡问题一直受到研究人员们的关注,因此需要对该类恶意流量进行检测,针对该问题发展出了多种解决方法,主要可以分为四类:数据抽样、代价敏感学习、决策边界移动和集成学习方法,但是当传统的学习算法应用于不平衡数据集时,少数类很容易发生错误分类。
目前,基于规则的恶意流量检测方法由于其在检测效果、检测效率以及人工干预上的局限性,很难适用于现如今海量网络数据的情况,随着人工智能技术的发展,越来越多的人使用机器学习或深度学习方法进行恶意流量检测,目前在恶意流量检测领域所用的训练数据可以分为正常流量样本和恶意流量样本,然而在实际网络环境中,恶意流量占比很小,因此存在着类别不平衡的问题,使用一般的学习算法进行分类时,恶意流量的召回率较低,对少数类的区分能力不足,在正负样本不平衡情况下,并不能保证恶意流量分类的准确性。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种数据不平衡场景下的恶意流量检测方法,解决了现有的恶意流量检测方法中,使用一般的学习算法进行分类时,恶意流量的召回率较低,对少数类的区分能力不足,在正负样本不平衡情况下,并不能保证恶意流量分类的准确性的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种数据不平衡场景下的恶意流量检测方法,包括以下操作步骤:
S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;
S2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;
S3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;
S4、使用SMOTE进行过采样:使用SMOTE进行对S3中分配好的样本进行过采样,根据指定的用于构建合成样本的簇内最近邻居数进行插值,进而生成新样本;
S5、训练基于G-mean改进过的ELM分类器:使用新构建的数据集训练G-mean改进过的ELM分类器;
为了改善经典的ELM算法在不平衡数据学习中的不足,基于G-mean定义了新的损失函数,提出了新的ELM算法,其中G-mean是广泛应用于不平衡数据学习中的评价度量指标,其定义如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电积至(海南)信息技术有限公司,未经中电积至(海南)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110249229.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置