[发明专利]基于K_means和KNN融合算法的网络流量分类方法有效

专利信息
申请号: 201810454425.8 申请日: 2018-05-14
公开(公告)号: CN108650194B 公开(公告)日: 2022-03-25
发明(设计)人: 张玉;邹学强;包秀国;付宁佳;张建忠 申请(专利权)人: 南开大学;国家计算机网络与信息安全管理中心
主分类号: H04L47/2441 分类号: H04L47/2441;H04L47/2483;G06K9/62
代理公司: 泰州地益专利事务所 32108 代理人: 谭建成
地址: 天津市津南区*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了基于K_means和KNN融合算法的网络流量分类方法。该方法的框架是针对每个应用协议构建一个二分类器,由决策规则将所有分类器的输出整合为最终输出。算法上融合了无监督的K_means算法和有监督的KNN算法,此外,该方法还提出了基于K_means迭代的特征选择算法,目的是选出高分离度的特征,以节省时间、空间和提高分类效果。实验结果表明,在真实流量数据上,本发明对流量识别的准确率和召回率可达90%以上,相比现有典型的流量分类方法效果更好;本发明还可识别出未登录流量,与典型的分类方法相比在功能上有了扩展。
搜索关键词: 基于 k_means knn 融合 算法 网络流量 分类 方法
【主权项】:
1.一种基于K_means和KNN融合算法的网络流量分类方法,该方法构建的框架是针对每一种预先定义的协议类别,构建一个二分类器,多个二分类器的结果由决策规则合并为最终分类结果;每个二分类器的构建采用了K_means和KNN融合算法;还提出了一种基于迭代K_means的特征选择算法用于提取高分离度的特征;该方法具体包括以下步骤:第1步、采集流量数据集;使用的流量涵盖各种应用类别,来源包括网络公开数据集和自己捕获的数据集;将数据集按照相同的五元组分割为数据流,随机选取其中80%为训练集,剩余20%为测试集;第2步、计算流统计特征;使用的特征包括数据流中包总数、字节总数、包长的最大/最小/平均/标准差、包间隔时间的最大/最小/平均/标准差、信息熵等;为避免量纲的影响,将特征进行归一化处理;第3步、利用基于迭代K_means的特征选择算法选取高分离度的特征;以K_means聚类算法为基础,从1维特征空间开始聚类,逐渐向高维合并,以熵值评估聚类效果判断特征能否进入下一轮合并过程,算法收敛后选出的即为最优特征子集;针对每个应用类别,选出各自对应的最优特征子集;第4步、在第3步最优特征子集的基础上,利用训练集建立(N+1)分类模型;针对N个应用类别,利用K_means和KNN融合算法构建分类器,判定流量是否属于该应用(即二分类器),所有N个二分类器的分类结果经由决策规则整合为最终分类结果;(N+1)分类模型最终可将流量分到N个预先定义的类别之一以及“未登录”类别中;第5步、在第4步建立分类器之后,使用测试集进行分类准确率和召回率测试,与其他四种现有典型的算法作对比分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学;国家计算机网络与信息安全管理中心,未经南开大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810454425.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top