[发明专利]一种面向因特网不平衡应用流的分类方法在审
申请号: | 201410318598.9 | 申请日: | 2014-07-04 |
公开(公告)号: | CN104102700A | 公开(公告)日: | 2014-10-15 |
发明(设计)人: | 刘琼;刘珍 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 因特网 不平衡 应用 分类 方法 | ||
1.一种面向因特网不平衡应用流的分类方法,在对所收集的流量数据报文已完成五元组{源IP、目标IP、源端口号、目标端口号、传输层协议}组流、流特征值计算和类别标记,且已获得由特征向量描述的流样本及流量数据集的基础上;其特征在于包括如下步骤:
步骤一,利用k-means算法将数据集划分为多个密集且不相交的子集,每个子集包含一个聚簇中心;
步骤二,针对步骤一所得子集,按过采样比例扩充小类流样本;
步骤三,针对步骤二获得的子集,制定启发式规则欠采样大类流样本;
步骤四,步骤三获得的子集作为训练集,离线训练k个集成分类模型;
步骤五,联合k个集成分类模型对测试流样本进行分类。
2.如权利要求1所述一种面向因特网不平衡应用流的分类方法,其特征在于步骤一利用k-means聚簇算法将数据集划分为k个密集且不相交的子集包括:选定聚簇个数k,利用k-means算法进行流样本聚簇。
3.如权利要求1和2所述一种面向因特网不平衡应用流的分类方法,其特征在于预先选定聚簇个数k指:采用误差平方和(sum of squared error,SSE)搜索k值,SSE表征当数据集划分为k个聚簇时各簇簇内散度之和;当以k为自变量,SSE为因变量时,k与SSE之间基本呈现非线性单调减函数关系;当k按正整数从2起递增时,若SSE降低程度不再明显,则选取当即k值作为聚簇个数;所述SSE降低程度不再明显指相邻两个k值对应的SSE的比值接近于1。
4.如权利要求1所述一种面向因特网不平衡应用流的分类方法,其特征在于步骤二按过采样比例扩充小类流样本包括过采样比例和扩充小类流样本的流程;所述“过采样比例”指在过采样子集中,最大类的流样本数与一个小类的流样本数的比值,由人为设定;所述过采样子集是由当前子集扩充小类流样本后获得的流样本数据集;所述当前子集包含多个类别的样本,分三部份:1个最大类的样本、1个或多个小类的样本、1个或多个其它类的样本;所述最大类指在当前子集中样本数最多的类别;所述小类指在当前子集中至少扩充一个样本即满足小类流样本数与最大类流样本数的比值等于过采样比例的类别;所述其它类别指在当前子集中由样本数判断既不属于最大类也不属于小类的类别。
5.如权利要求1和4所述一种面向因特网不平衡应用流的分类方法,其特征在于扩充小类流样本的流程包括:小类流样本扩充数、扩充数的分配方法和扩充小类流样本的方法;所述小类流样本的扩充数为最大类流样本数乘以“过采样比例”再减去当前小类应用流的样本数;所述扩充数的分配方法指在当前子集中,当前小类应用流的样本扩充数除以该小类应用流的样本数,即每个当前小类应用流的样本所需扩充的样本数;所述扩充小类流样本的方法指采用SMOTE方法扩充小类流样本,即利用KD-Tree算法搜索当前样本的q(q>1)个同类别最近邻,随机选取其中一个最近邻,对其特征向量的逐个特征值进行插值计算,生成新特征向量所表达的小类流样本。
6.如权利要求1所述一种面向因特网不平衡应用流的分类方法,其特征在于步骤三制定启发式规则欠采样大类流样本指建立移出大类流样本的方法,包括利用KD-Tree算法在当前子集中逐个针对小类流样本搜索m(m>1)个最近邻,在所有小类的最近邻集合中搜索字节数少于10KB的大类流样本作为移除候选样本,所述候选样本可能同时属于多个小类流样本的最近邻,为每个候选样本计算与各对应小类流样本的距离的平均值,按距离平均值的升序规律移除候选样本,直至欠采样子集中的大类样本数达到阈值为止。
7.如权利要求1和6所述一种面向因特网不平衡应用流的分类方法,其特征在于所述阈值指欠采样子集中的最小类流样本数除以欠采样比例得到的样本数;所述欠采样指移除大类样本的采样方法;所述“欠采样比例”指在欠采样子集中,最小类流样本数与一个大类流样本数的比值,由人为设定;所述欠采样子集是由当前子集移除部分大类流样本后获得的流样本数据集;所述当前子集含多个类别的样本,分三部份:1个最小类的样本、1个或多个大类的样本、1个或多个其它类的样本;所述最小类指在当前子集中样本数最少的类别;所述大类指在当前子集中至少移除一个样本即符合最小类流样本数与大类流样本数的比值等于欠采样比例的类别;所述其它类别指在当前子集中由样本数判断既不属于最小类也不属于大类的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410318598.9/1.html,转载请声明来源钻瓜专利网。