[发明专利]基于K_means和KNN融合算法的网络流量分类方法有效

申请号：	201810454425.8	申请日：	2018-05-14
公开（公告）号：	CN108650194B	公开（公告）日：	2022-03-25
发明（设计）人：	张玉;邹学强;包秀国;付宁佳;张建忠	申请（专利权）人：	南开大学;国家计算机网络与信息安全管理中心
主分类号：	H04L47/2441	分类号：	H04L47/2441;H04L47/2483;G06K9/62
代理公司：	泰州地益专利事务所 32108	代理人：	谭建成
地址：	天津市津南区***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了基于K_means和KNN融合算法的网络流量分类方法。该方法的框架是针对每个应用协议构建一个二分类器，由决策规则将所有分类器的输出整合为最终输出。算法上融合了无监督的K_means算法和有监督的KNN算法，此外，该方法还提出了基于K_means迭代的特征选择算法，目的是选出高分离度的特征，以节省时间、空间和提高分类效果。实验结果表明，在真实流量数据上，本发明对流量识别的准确率和召回率可达90％以上，相比现有典型的流量分类方法效果更好；本发明还可识别出未登录流量，与典型的分类方法相比在功能上有了扩展。
搜索关键词：	基于 k_means knn 融合算法网络流量分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于K_means和KNN融合算法的网络流量分类方法，该方法构建的框架是针对每一种预先定义的协议类别，构建一个二分类器，多个二分类器的结果由决策规则合并为最终分类结果；每个二分类器的构建采用了K_means和KNN融合算法；还提出了一种基于迭代K_means的特征选择算法用于提取高分离度的特征；该方法具体包括以下步骤：第1步、采集流量数据集；使用的流量涵盖各种应用类别，来源包括网络公开数据集和自己捕获的数据集；将数据集按照相同的五元组分割为数据流，随机选取其中80％为训练集，剩余20％为测试集；第2步、计算流统计特征；使用的特征包括数据流中包总数、字节总数、包长的最大/最小/平均/标准差、包间隔时间的最大/最小/平均/标准差、信息熵等；为避免量纲的影响，将特征进行归一化处理；第3步、利用基于迭代K_means的特征选择算法选取高分离度的特征；以K_means聚类算法为基础，从1维特征空间开始聚类，逐渐向高维合并，以熵值评估聚类效果判断特征能否进入下一轮合并过程，算法收敛后选出的即为最优特征子集；针对每个应用类别，选出各自对应的最优特征子集；第4步、在第3步最优特征子集的基础上，利用训练集建立(N+1)分类模型；针对N个应用类别，利用K_means和KNN融合算法构建分类器，判定流量是否属于该应用(即二分类器)，所有N个二分类器的分类结果经由决策规则整合为最终分类结果；(N+1)分类模型最终可将流量分到N个预先定义的类别之一以及“未登录”类别中；第5步、在第4步建立分类器之后，使用测试集进行分类准确率和召回率测试，与其他四种现有典型的算法作对比分析。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南开大学;国家计算机网络与信息安全管理中心，未经南开大学;国家计算机网络与信息安全管理中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810454425.8/，转载请声明来源钻瓜专利网。

上一篇：一种数据包发送的方法和设备
下一篇：一种APP流量自动识别模型构建方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于K_means和KNN融合算法的网络流量分类方法有效

专利文献下载