[发明专利]一种基于增量聚类算法的在线流量识别方法在审
| 申请号: | 201810769817.3 | 申请日: | 2018-07-13 |
| 公开(公告)号: | CN109067612A | 公开(公告)日: | 2018-12-21 |
| 发明(设计)人: | 苘大鹏;杨武;王巍;玄世昌;吕继光;甘志雄 | 申请(专利权)人: | 哈尔滨工程大学 |
| 主分类号: | H04L12/26 | 分类号: | H04L12/26;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚类 在线识别 离线 在线流量识别 聚类算法 数据集 映射 网络技术领域 网络应用类型 半监督学习 训练数据集 基于机器 均值算法 流量识别 流量算法 网络流量 在线流量 数据流 半监督 实时性 识别率 训练集 分类 构建 学习 改进 | ||
本发明属于网络技术领域,具体涉及一种基于增量聚类算法的在线流量识别方法。包括离线识别阶段和在线识别阶段,离线识别阶段将预先准备的训练数据集使用基于改进K均值算法的半监督学习流量算法进行初步的聚类和映射工作,得到初步分类完成的数据集;在线识别阶段基于离线识别阶段所形成的已完成聚类和映射的数据集,对在线新加入的数据流进行增量聚类来判断其网络应用类型,从而达到流量识别的目的。本方法基于机器学习技术,通过构建合适的识别模型对预先准备的数据进行学习,可以实时对在线流量进行增量聚类,结合预先准备的训练集进行初步的半监督分类,可以实现网络流量的在线识别,具有良好的实时性和较高的识别率。
技术领域
本发明属于网络技术领域,具体涉及一种基于增量聚类算法的在线流量识别方法。
背景技术
随着互联网的快速发展,网络环境变得越来复杂,新型应用类型和业务日益多样化,实时且准确的识别网络流量对网络管理和流量具有相当重要的意义。目前流量识别方法有四种:基于端口号的流量识别方法、基于行为特征的流量识别方法、基于深度报文检测的流量识别方法和基于机器学习的流量识别方法。基于端口号的识别方法只对使用常用端口和注册端口的网络协议流量识别具有准确性;基于行为特征匹配的识别方法则时空开销比较大,识别的性能不足;基于深度报文检测的流量识别方法需要耗费大量人力物力来建立规则库,而且在加密流量识别方面也存在欠缺;部分常见的基于机器学习的方法需要在离线环境下提取完整流的统计特征,然而由于真实网络环境互联网应用行为具有实时、多变、易逝和不可逆等特性,该类流量识别方法不能满足在线实时流量识别的需求。
发明内容
本发明的目的在于提供一种实时性好的基于增量聚类算法的在线流量识别方法。
一种基于增量聚类算法的在线流量识别方法,包括以下步骤:
步骤1、离线识别阶段对预先准备的训练数据集提取所需流量特征属性完成数据集的预处理。
步骤2、使用基于改进K均值算法的半监督学习流量方法对预处理后的数据集进行初步的聚类和映射工作,得到初步分类完成的数据集。
步骤3、对在线新加入的数据流进行实时的特征提取以得到增量聚类的数据对象。
步骤4、在已形成的完成聚类和映射的数据集的基础上,使用增量聚类来判断流量的网络应用类型,从而达到流量识别的目的。
步骤5、定期删减不属于所要识别的网络应用类型所对应的类簇的点或者距每个类簇中心较远的数据对象,得到新的数据集,转到步骤3,达到持续识别在线流量的目的。
所述一种基于增量聚类算法的在线流量识别方法,步骤1具体包括:对采集的网络流量进行预处理,包括针对IP层数据包进行分片重组、过滤TCP协议的乱序重传报文、判断数据流开始和结束、记录数据包到达时间;对预处理之后的流量使用已知DPI方法进行流量识别作为参考,然后将不同应用数据流进行采样,对采样后形成的数据集按需要提取的属性进行特征提取,并按一定比例对数据进行标记。
所述一种基于增量聚类算法的在线流量识别方法,步骤2具体包括:运行改进的K均值聚类算法将特征提取后的数据集进行聚类,将聚类结果中每个簇中已经标记的各类型数据比例作为参照,对聚类结果根据最大似然估计,得到训练数据集中类与具体网络应用之间的映射。
所述一种基于增量聚类算法的在线流量识别方法,步骤5具体包括:
步骤5.1、将经过训练阶段得到的具有收敛聚类中心的数据集合作为初始数据集,该数据集合已有k个类簇,设集合当前初始大小Size为N,将此时作为初始时刻,时间t为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810769817.3/2.html,转载请声明来源钻瓜专利网。





