[发明专利]一种网格区间数据可伸缩的k-means算法网络流量分析方法在审
申请号: | 202110780306.3 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113572702A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 廖勇 | 申请(专利权)人: | 成都职业技术学院 |
主分类号: | H04L12/851 | 分类号: | H04L12/851;G06K9/62 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 梁宝龙 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网格 区间 数据 伸缩 means 算法 网络流量 分析 方法 | ||
本发明公开了一种网格区间数据可伸缩的k‑means算法的网络流量分析方法,通过对数据包的源IPv6与IPv4地址或目的IPv6与IPv4地址聚类聚合分类,使每个数据包按照源IP地址或目的IP地址的相似度进行聚簇,形成最终的基于IP地址的数据包流量类型分类。由于本方法是通过网格区间进行数据划分的,因此可以对非簇型数据集进行聚类,克服了传统的按IP地址类型流量分类方式,使基于IP地址的流量分类可按任何地址段位数进行分类,因此按IP地址位数聚类的网络流量分类可更精准,方便集中管控,将聚类的IP地址集分类结果转换成对应使用这些聚类地址的位置,从而可通过少数IP地址可以快速定位到大部分网络流量来源的地区或地点。
技术领域
本发明涉及基于IP地址的网络流量分类技术领域,尤其涉及一种网格区间数据可伸缩的k-means算法的网络流量分析方法。
背景技术
随着局域网中网络边界流量增速明显,目前对于流量分析与控制技术主要是使用基于源ip地址或目的ip地址对网络边界流量进行分析或控制。而对于网络流量分类目前主要使用技术手段是使用ip地址类型分类技术,因此很难按网络需求精准到某位ip地址段分类。并且随着ipv6地址使用,传统通过ip地址分类的网络流量分类技术难以实现。网络边界网络流量非常庞大,但是局域网出口带宽有限,因此需要对流量基于ip地址进行分类,然后根据流量数据包的分类对网络出口流量进行集中管控。
k-means聚类算法是数据挖掘技术中重要算法之一,该算法利用样本的特征相似性特点,将相似的样本划分到同一类或簇中,所以样本差异较大的则划分到不同类或簇中,即同一类或簇的相似性要远高于不类或簇的相似性,由于K-means算法操作简单,并且速度快,因此得到了广泛应用。但是该算法的初始聚类中心是随机选择产生的,所以容易造成局优,只可发现球状簇类数据,并且聚类结果不稳定。
针对k-means算法的问题,很多研究人员对k-means算法选择初始聚类中心进行了改进,比如有研究人员提出基于分位数半径的动态k-means算法,该算法引入分位数半径的概念,通过中心点间距离的分位数半径大小的比较,确定初始聚类中心,该算法效率较高,但是只可发现簇类数据;另外有研究人员提出空间密度相似性度量K-means算法,该算法采用可伸缩空间密度的相似性距离度量数据点间的相似度,通过密度和距离选择出初始聚类中心,解决了非簇类数据的聚类,但是该算法计算量较大,效率较低;还有研究人员提出基于多维网格空间的改进k-means聚类算法,该算法将空间划分成等距网格,将样本映射到多维网格空间中,计算网格区间中数据量多的样本均值点作为初始聚类中心,该算法计算出的实际聚类中心误差较低,但是对于多维样本集寻找网格区间中数据量实现较复杂;另有研究人员提出可变网格优化的k-means算法,该算法通过网格区间划分方法解决了k-means算法只可发现球状簇数据问题,利用相邻区间的相似度,对相邻区间进行合并,选择出初始聚类中心,该算法实现简单,聚类效率较高,但是区间密度计算方法以及相邻区间合并,容易导致区间内数据差异性较大,从而选择出的初始聚类中心不够理想。
针对以上k-means算法存在的问题,本发明提出了一种网格区间数据可伸缩的k-means算法,本算法借鉴网格区间思想,将网格区间中数据按相邻数据的相似程度进行伸缩移动,以此改善区间数据相似误差,使得每区间内数据更加相似,从而获取更接近实际聚类中心的初始聚类中心。同时本发明提出算法可应用到非簇类数据的聚类,并且是基于网格区间思想,因此适用于ip地址数据特征的分类,通过聚类方式实现基于ip地址网络流量分类方法。
发明内容
针对上述存在的问题,本发明旨在提供一种区间数据可伸缩的k-means算法的网络流量分析方法,使网络流量分类更细化,从而分类更精准,解决了传统的按IP地址类型的流量分类方式,更加适合基于IPv6地址的网络流量分析。
为了实现上述目的,本发明所采用的技术方案如下:
一种网格区间数据可伸缩的k-means算法的网络流量分析方法,其特征在于,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都职业技术学院,未经成都职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110780306.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置