[发明专利]一种网格区间数据可伸缩的k-means算法网络流量分析方法在审
申请号: | 202110780306.3 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113572702A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 廖勇 | 申请(专利权)人: | 成都职业技术学院 |
主分类号: | H04L12/851 | 分类号: | H04L12/851;G06K9/62 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 梁宝龙 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网格 区间 数据 伸缩 means 算法 网络流量 分析 方法 | ||
1.一种网格区间数据可伸缩的k-means算法的网络流量分析方法,其特征在于,包括以下步骤:
S1:输入网络边界流量数据包中源IP地址集或目的IP地址集,将源IP地址集或目的IP地址集按地址类型分类成ipv4地址集与ipv6地址集,再将ipv4地址集或ipv6地址集划分为多维样本数据集,并将所述多维样本数据集划分为若干个网格单元;
S2:从所述多维样本数据集中获取第一维数据集进行等深区间划分,并获取第一维数据集最终的初始聚类中心;
S3:从所述中得到的第一维数据集最终的初始聚类中心选择出对应的第二维数据集,并计算出第二维数据集最终的初始聚类中心,再以第二维数据集为基准进行递归,计算出每一维的初始聚类中心,即为样本集的初始聚类中心;
S4:从所述中得出的样本集的初始聚类中心,计算出样本集的最终聚类中心,然后根据得到的聚类中心的聚类地址分类获取到大部分网络流量来源的地区或地点。
2.根据权利要求1所述的一种网格区间数据可伸缩的k-means算法的网络流量分析方法,其特征在于:步骤S1中的所述的将每维数据集划分若干个网格的约束条件包括:
1)多维数据集的维数其中,B为IP地址二进制位数,b为划分多维中每维的二进制位数;
2)网格划分中,有共同边界的网格,为相邻区间;
3)两个相邻区间的相邻数据,为区间相邻数据,区间内的两相邻数据,为区内相邻数据,区间相邻数据之间差值的绝对值,为区间相邻距离,区内相邻数据之间差值的绝对值,为区内相邻距离;
4)初始网格的每个网格数据个数为其中,N为Di维数据中的十进制的数据集,q为初始网格划分的网格区间个数;
5)网格内每个区间数据的平均值uj的计算公式为:
其中,i表示维度,j表示网格区间段,m表示该区间段内的数据个数,d(i)(j+k)表示第i维第j区间段的第k个数的元素值;
6)用网格区间相似密度Aij来表示每个网格区间内数据之间的稳定性程度,且Aij的计算公式为:
其中,i表示维度,j表示网格区间段,m表示该区间段内的数据个数,uj为区间数据平均值,d(i)(j+k)表示第i维第j区间段的第k个数的元素值,Aij为第i维第j区间段的网格密度,Aij越小表明该区间内数据越相似;
7)网格区间区内相邻数据平均距离s的计算公式为:
其中,i表示维度,j表示网格区间段,m表示该区间段内的数据个数,d(i)(j+k)表示第i维第j区间段的第k个数的元素值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都职业技术学院,未经成都职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110780306.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置