[发明专利]一种基于半监督学习的应用流自动分类方法有效

专利信息
申请号: 202011010285.9 申请日: 2020-09-23
公开(公告)号: CN112187664B 公开(公告)日: 2023-04-18
发明(设计)人: 吴桦;陈晰颖;程光 申请(专利权)人: 东南大学
主分类号: H04L47/2441 分类号: H04L47/2441;H04L9/40;G06F18/231;G06F18/24;G06F18/22
代理公司: 南京众联专利代理有限公司 32206 代理人: 叶涓涓
地址: 211189 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 学习 应用 自动 分类 方法
【说明书】:

发明公开了一种基于半监督学习的应用流自动分类方法,该方法从网络流量数据中提取有效特征,包括非比例特征和比例特征;使用自底向上的层次聚类算法实现对网络流量的多层次自动分类,在每一层次的聚类中计算非比例特征的余弦相似度和比例特征的欧氏距离,将结果中满足阈值条件的流聚合为一类,调整分类阈值逐层聚类直到将所有原始流量最终聚合为一类;确定聚类结果中能够将典型流量类型区分开来且将同一类流量聚合为一类的流量类型层,根据已有标签的典型流量信息为流量类型层中的各类流量打上流量类型标签。本发明可自动区分网络流量的流量类型,可用于网络管理和网络安全监测。

技术领域

本发明属于网络测量技术领域,涉及一种基于半监督学习的网络应用流量自动分类方法。

背景技术

网络流量分类是实现有效的网络管理的重要环节之一,流量分类的目的是从不同应用和协议的网络流量中识别出流量的类别,从而有效地支持下游应用(如QoS保障,网络测量,入侵检测等)。因此网络流量分类已经逐渐成为了网络管理领域的研究热点。

目前存在的流量分类方法主要有三大类,包括基于端口的、基于负载的以及基于机器学习技术的方法,均各自具有缺陷。

基于端口的流量分类是通过检查分组的传输层端口,根据IANA制定的知名端口号与注册端口号列表将分组和应用匹配起来。然而随着网络应用的不断发展,基于端口的分类方法的缺陷日益明显,流行的P2P与被动FTP等新型网络应用使用随机端口进行数据传输,从而导致基于端口的分类方法逐渐被淘汰。

随着技术的发展,工业级产品中广泛使用基于负载的流量分类方法,该方法主要分析数据包的有效负载来判断其是否包含与已知应用相匹配的特征,但是基于负载的方法需要预先知道应用的语法和特征,而且需要提取每个IP分组载荷的明文。随着加密应用以及其他新型应用的涌现,由于无法获取数据包的负载明文以及存在未知应用的语法和特征,逐步降低了此方法的分类性能。

由于机器学习技术的高分类性能以及对动态端口和加密流量的强适应性,机器学习技术在近年来的流量分类研究中得到大量应用。传统的机器学习方法主要分为基于统计学方法的(如SVM、Adaboost、NaiveBayes等)以及基于高级深度学习模型的(如sparseauto-encoder等)方法。尽管传统的机器学习方法有较好分类性能,但是存在以下两个限制。1)监督学习方法中,分类结果中的所有的种类必须是预先知道的(先验条件)。2)这种方法需要人工标记数据,需要在相当长的一段时间内探索流特征。而实际网络中存在着由未知的应用在较短时间阶段产生的新的流量。在这种流量分类问题中,监督学习方法不仅分类性能较差而且不能适应网络的动态变化。尽管现在已经有一些无监督学习方法(如K-means)可以部分地解决这个问题,但这些无监督学习方法还需要额外的手工检查。

发明内容

为了有效地实现网络流量的自动分类,自动化地将网络流量精准分类,本发明从网络流量中提取了多种有效特征,针对有效特征的特点,结合余弦相似度与欧氏距离的适用性设计了相似度计算方法,并基于半监督学习方法与分层聚类思想设计了一种应用流自动分类方法以识别网络流量的类型。

为了达到上述目的,本发明提供如下技术方案:

一种基于半监督学习的网络应用流量自动分类方法,包括如下步骤:

(1)采集网络流量数据,包括主干网中未知流量类型的流量以及应用中已知流量类型的流量数据;

(2)基于采集的网络流量数据,提取76种数据流特征建立特征库;

(3)结合余弦相似度与欧氏距离,针对步骤(2)中建立的特征库使用层次聚类算法实现对网络流量的聚类并输出分类结果;

(4)分析步骤(3)输出的各应用流量的聚类结果,确定将典型的流量类型区分开来的聚类层次,将这一聚类层次作为流量类型层;

(5)为流量类型层中每一类的流量打上流量类型标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011010285.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top