[发明专利]一种网格区间数据可伸缩的k-means算法网络流量分析方法在审

申请号：	202110780306.3	申请日：	2021-07-09
公开（公告）号：	CN113572702A	公开（公告）日：	2021-10-29
发明（设计）人：	廖勇	申请（专利权）人：	成都职业技术学院
主分类号：	H04L12/851	分类号：	H04L12/851;G06K9/62
代理公司：	西安研创天下知识产权代理事务所(普通合伙) 61239	代理人：	梁宝龙
地址：	610041 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网格区间数据伸缩 means 算法网络流量分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网格区间数据可伸缩的k-means算法的网络流量分析方法，其特征在于，包括以下步骤：

S1：输入网络边界流量数据包中源IP地址集或目的IP地址集，将源IP地址集或目的IP地址集按地址类型分类成ipv4地址集与ipv6地址集，再将ipv4地址集或ipv6地址集划分为多维样本数据集，并将所述多维样本数据集划分为若干个网格单元；

S2：从所述多维样本数据集中获取第一维数据集进行等深区间划分，并获取第一维数据集最终的初始聚类中心；

S3：从所述中得到的第一维数据集最终的初始聚类中心选择出对应的第二维数据集，并计算出第二维数据集最终的初始聚类中心，再以第二维数据集为基准进行递归，计算出每一维的初始聚类中心，即为样本集的初始聚类中心；

S4：从所述中得出的样本集的初始聚类中心，计算出样本集的最终聚类中心，然后根据得到的聚类中心的聚类地址分类获取到大部分网络流量来源的地区或地点。

2.根据权利要求1所述的一种网格区间数据可伸缩的k-means算法的网络流量分析方法，其特征在于：步骤S1中的所述的将每维数据集划分若干个网格的约束条件包括：

1)多维数据集的维数其中，B为IP地址二进制位数，b为划分多维中每维的二进制位数；

2)网格划分中，有共同边界的网格，为相邻区间；

3)两个相邻区间的相邻数据，为区间相邻数据，区间内的两相邻数据，为区内相邻数据，区间相邻数据之间差值的绝对值，为区间相邻距离，区内相邻数据之间差值的绝对值，为区内相邻距离；

4)初始网格的每个网格数据个数为其中，N为Di维数据中的十进制的数据集，q为初始网格划分的网格区间个数；

5)网格内每个区间数据的平均值uj的计算公式为：

其中，i表示维度，j表示网格区间段，m表示该区间段内的数据个数，d(i)(j+k)表示第i维第j区间段的第k个数的元素值；

6)用网格区间相似密度Aij来表示每个网格区间内数据之间的稳定性程度，且Aij的计算公式为：

其中，i表示维度，j表示网格区间段，m表示该区间段内的数据个数，uj为区间数据平均值，d(i)(j+k)表示第i维第j区间段的第k个数的元素值，Aij为第i维第j区间段的网格密度，Aij越小表明该区间内数据越相似；

7)网格区间区内相邻数据平均距离s的计算公式为：

其中，i表示维度，j表示网格区间段，m表示该区间段内的数据个数，d(i)(j+k)表示第i维第j区间段的第k个数的元素值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都职业技术学院，未经成都职业技术学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110780306.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载