[发明专利]基于K_means和KNN融合算法的网络流量分类方法有效
申请号: | 201810454425.8 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108650194B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 张玉;邹学强;包秀国;付宁佳;张建忠 | 申请(专利权)人: | 南开大学;国家计算机网络与信息安全管理中心 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L47/2483;G06K9/62 |
代理公司: | 泰州地益专利事务所 32108 | 代理人: | 谭建成 |
地址: | 天津市津南区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了基于K_means和KNN融合算法的网络流量分类方法。该方法的框架是针对每个应用协议构建一个二分类器,由决策规则将所有分类器的输出整合为最终输出。算法上融合了无监督的K_means算法和有监督的KNN算法,此外,该方法还提出了基于K_means迭代的特征选择算法,目的是选出高分离度的特征,以节省时间、空间和提高分类效果。实验结果表明,在真实流量数据上,本发明对流量识别的准确率和召回率可达90%以上,相比现有典型的流量分类方法效果更好;本发明还可识别出未登录流量,与典型的分类方法相比在功能上有了扩展。 | ||
搜索关键词: | 基于 k_means knn 融合 算法 网络流量 分类 方法 | ||
【主权项】:
1.一种基于K_means和KNN融合算法的网络流量分类方法,该方法构建的框架是针对每一种预先定义的协议类别,构建一个二分类器,多个二分类器的结果由决策规则合并为最终分类结果;每个二分类器的构建采用了K_means和KNN融合算法;还提出了一种基于迭代K_means的特征选择算法用于提取高分离度的特征;该方法具体包括以下步骤:第1步、采集流量数据集;使用的流量涵盖各种应用类别,来源包括网络公开数据集和自己捕获的数据集;将数据集按照相同的五元组分割为数据流,随机选取其中80%为训练集,剩余20%为测试集;第2步、计算流统计特征;使用的特征包括数据流中包总数、字节总数、包长的最大/最小/平均/标准差、包间隔时间的最大/最小/平均/标准差、信息熵等;为避免量纲的影响,将特征进行归一化处理;第3步、利用基于迭代K_means的特征选择算法选取高分离度的特征;以K_means聚类算法为基础,从1维特征空间开始聚类,逐渐向高维合并,以熵值评估聚类效果判断特征能否进入下一轮合并过程,算法收敛后选出的即为最优特征子集;针对每个应用类别,选出各自对应的最优特征子集;第4步、在第3步最优特征子集的基础上,利用训练集建立(N+1)分类模型;针对N个应用类别,利用K_means和KNN融合算法构建分类器,判定流量是否属于该应用(即二分类器),所有N个二分类器的分类结果经由决策规则整合为最终分类结果;(N+1)分类模型最终可将流量分到N个预先定义的类别之一以及“未登录”类别中;第5步、在第4步建立分类器之后,使用测试集进行分类准确率和召回率测试,与其他四种现有典型的算法作对比分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学;国家计算机网络与信息安全管理中心,未经南开大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810454425.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据包发送的方法和设备
- 下一篇:一种APP流量自动识别模型构建方法