[发明专利]基于K_means和KNN融合算法的网络流量分类方法有效
申请号: | 201810454425.8 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108650194B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 张玉;邹学强;包秀国;付宁佳;张建忠 | 申请(专利权)人: | 南开大学;国家计算机网络与信息安全管理中心 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L47/2483;G06K9/62 |
代理公司: | 泰州地益专利事务所 32108 | 代理人: | 谭建成 |
地址: | 天津市津南区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 k_means knn 融合 算法 网络流量 分类 方法 | ||
本发明提出了基于K_means和KNN融合算法的网络流量分类方法。该方法的框架是针对每个应用协议构建一个二分类器,由决策规则将所有分类器的输出整合为最终输出。算法上融合了无监督的K_means算法和有监督的KNN算法,此外,该方法还提出了基于K_means迭代的特征选择算法,目的是选出高分离度的特征,以节省时间、空间和提高分类效果。实验结果表明,在真实流量数据上,本发明对流量识别的准确率和召回率可达90%以上,相比现有典型的流量分类方法效果更好;本发明还可识别出未登录流量,与典型的分类方法相比在功能上有了扩展。
技术领域
本发明涉及流量工程、网络安全等领域,具体涉及用于网络流量分类、网络管理、Qos和未登录流量识别。
背景技术
网络流量分类技术作为众多网络研究课题的基础和支撑技术,正受到越来越多的网络研究工作者和ISPs的关注。在网络安全方面,大量应用程序和网络服务的出现,隐含着各式各样的恶意流量和非法行为,如网络病毒、垃圾邮件、网络攻击等。对网络流量进行正确的分类和识别,不仅能够过滤这些不良信息,也能深入了解当前网络的健康程度,优化、管理指定流量,对互联网起到一定的保护作用,保障网络带宽的质量以及应用服务的正常运行,保障网络环境的绿色、健康。在网络管理方面,网络管理员通过流量分类的结果,可以及时了解管辖网络区域内各种网络应用的变化情况,进而发现网络设备故障、网络拥塞等问题。在Qos方面,P2P、VoIP等新型应用流量已经占据了网络流量的绝大部分,并影响其它应用的正常使用。所以,ISPs迫切的希望能够为各种不同的用户提供不同的网络服务,而几乎所有的Qos策略都依赖于网络流量分类。
目前常用的流量识别技术主要有三种模式:基于端口、基于负载、基于流统计特征。由于各种应用在端口的多变性使得基于端口方法具有很大的局限性。而基于负载的方法无法应对负载加密的流量。基于流统计特征的方法可以克服上述方法的缺陷,它是在数据流层面来分类流量,通过使用一些统计特征(包长、包时间间隔等)建立机器学习模型,通过训练模型参数来预测未知流量类别,该方法取得的效果要优于之前两种,所以在业界被广泛研究和使用。
在目前这些研究大多使用有监督的机器学习模型(如KNN、SVM、Adaboost)来分类,无监督的模型(如K_means)使用很少,无监督的模型的好处在于可以发掘未登录的流量类别而不受预定义类别数量的限制,而有监督的模型分类效果好但只能将流量分到预先定义好的类别。基于这些技术背景,将有监督和无监督的方法融合起来就是本发明的设计思路。
发明内容
本发明目的在于解决目前网络流量分类方法形式单一且准确率低、无法识别未登录流量的问题,提供一种基于K_means和KNN融合算法的网络流量分类方法。与其他方法不同之处在于,本发明融合了无监督的K_means算法和有监督的KNN算法,在计算测试样本所属类别时引入了权重因子给训练样本加权,考虑了对结果有重要影响的两个距离do和du,极大的提高了分类准确率;通过建立多个二分类器共同对分类结果作出贡献,使得算法可以有效的识别出未登录流量,相比传统的分类模型有了功能扩展;为了提取重要度高的特征,提供了一种基于迭代K_means的特征选择算法,对各个应用类别选取其最优特征子集。
本发明的技术方案:
一种基于K_means和KNN融合算法的网络流量分类方法,该方法构建的框架是针对每一种预先定义的协议类别,构建一个二分类器,多个二分类器的结果由决策规则合并为最终分类结果;每个二分类器的构建采用了K_means和KNN融合算法;还提出了一种基于迭代K_means的特征选择算法用于提取高分离度的特征;该方法具体包括以下步骤:
第1步、采集流量数据集;使用的流量涵盖各种应用类别,来源包括网络公开数据集和自己捕获的数据集;将数据集按照相同的五元组分割为数据流,随机选取其中80%为训练集,剩余20%为测试集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学;国家计算机网络与信息安全管理中心,未经南开大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810454425.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据包发送的方法和设备
- 下一篇:一种APP流量自动识别模型构建方法