[发明专利]基于传输层特征的流量分类方法及装置有效
申请号: | 201110261935.1 | 申请日: | 2011-09-06 |
公开(公告)号: | CN102271090A | 公开(公告)日: | 2011-12-07 |
发明(设计)人: | 钱峰;刘萧;胡光岷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/56 | 分类号: | H04L12/56 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周永宏 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 传输 特征 流量 分类 方法 装置 | ||
1.基于传输层特征的流量分类方法,其特征在于,包括如下步骤:
A、采集作为训练数据的数据包,利用从数据包中提取的数据流的传输层特征参数构建一个分类器;
B、利用构建的分类器,实现对后续采集到的数据包中提取的数据流的分类。
2.根据权利要求1所述的方法,其特征在于,所述步骤A中,利用从数据包中提取的数据流的传输层特征构建一个分类器的详细步骤如下:
A1.首先采集一段时间内的所有数据包,并从数据包中提取作为训练数据的数据流;
A2.对数据流进行预处理后,提取数据流的传输层特征参数;
A3.根据传输层特征参数,对数据流进行手工分类,标记该数据流所属的应用类型;
A4.对经过手工分类的数据流的传输层特征参数进行机器学习,不断得到作为分类器的决策树;
A5.继续学习后续产生的数据流,直到决策树达到稳定的状态,即得到了一个有效的分类器。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤B中,利用构建的分类器,实现对后续采集到的数据包中提取的数据流的分类,详细步骤如下:
B1、从后续采集到的数据包中提取数据流并进行预处理;
B2、提取所述经过预处理的数据流的传输层特征参数;
B3、将所述数据流的传输层特征参数,传递给分类器,分类器即可通过这些参数确定该数据流的所属应用类型。
4.根据权利要求2所述的方法,其特征在于,所述传输层特征参数包括数据流的平均数据包大小、各数据包之间的到达时间间隔、IP层的数据部分大小的统计特征、数据包的控制字段大小、源端向目的端发送的数据包的数量和目的端向源端发送的数据包的数量。
5.根据权利要求4所述的方法,其特征在于,所述数据预处理步骤中,对于建立连接标志和拆除连接标志不完整的TCP数据流进行丢弃;并将具有相同五元组的UDP数据包归为一个完整的UDP流。
6.根据权利要求4或5所述的方法,其特征在于,步骤A4中,构建分类器时,采用C4.5决策树分类算法构建一棵决策树作为分类器。
7.根据权利要求6所述的方法,其特征在于,在采用C4.5决策树算法构建分类器过程中,用平滑的方式来填充残缺的数据,即以相邻的、相同属性的若干个值的平均值作为缺失值;对于噪声数据,则采取将该流从数据集中剔除的方式处理。
8.基于传输层特征的流量分类装置,其特征在于,包括:
数据采集模块,用于采集作为训练数据的网络数据包以及需要进行流量分量网络数据包;
分类器构建模块,用于利用数据采集模块采集的作为训练数据的数据包,利用从数据包中提取的数据流的传输层特征构建一个分类器;
分类模块,用于利用生成的分类器对数据采集模块采集到的网络数据进行分类。
9.如权利要求8所述的装置,其特征在于,所述分类器构建模块包括:
数据流提取单元,用于从训练数据中提取数据流;
预处理单元,用于对数据流进行预处理后,提取数据流的传输层特征;所述预处理是指去掉不完整的数据流;
分类标记单元,用于根据传输层特征,通过从训练数据中提取的数据流进行手工分类,然后根据手工分类结果标记该数据流所属的应用类型;
算法实现单元,用于采用C4.5决策树算法构建分类器对于经过手工分类的流的传输层特征进行机器学习,生成一个分类器。
10.如权利要求8或9所述的装置,其特征在于,所述分类模块包括:
数据流提取单元,用于从数据采集模块不断获取需要进行数据流分类的数据包,并从所述数据包中提取数据流;
预处理单元,用于对数据流提取单元提取的数据流进行预处理后,提取数据流的传输层特征;所述预处理是指去掉不完整的数据流;
分类实现单元;利用生成的分类器对经过预处理的数据流进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110261935.1/1.html,转载请声明来源钻瓜专利网。