[发明专利]一种基于最小生成树的海量数据聚类处理方法在审
申请号: | 201710467400.7 | 申请日: | 2017-06-20 |
公开(公告)号: | CN107506778A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 程林;贺海磊;刘满君;周勤勇;张彦涛;梁才浩;刘琛;江轶 | 申请(专利权)人: | 清华大学;中国电力科学研究院;国家电网公司;国网江苏省电力公司电力科学研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最小 生成 海量 数据 处理 方法 | ||
1.一种基于最小生成树的海量数据聚类处理方法,其特征在于该方法包括以下步骤:
(1)将待处理海量数据U转化为节点矩阵A;
设定待处理海量数据U中的任意两个数据之间的距离为dist(·,·),将该距离dist(·,·)作为矩阵A的赋值,与节点矩阵A相对应的是一个全连通图,全连通图的边权重为dist(·,·),并将该距离dist(·,·)作为任意两个数据之间的边权重,设待处理海量数据的数目为m,则节点矩阵A如下式所示:
(2)利用普利姆方法对节点矩阵A进行处理,得到一个最小边权重节点稀疏矩阵Am:
Am=Lm+Um
与上述节点稀疏矩阵Am相对应的是一个最小生成树,其中Lm为Am的下半部分,Um为Am的上半部分;
(3)分别统计上述步骤(2)中的矩阵Lm的第i行和第i列中与最小生成树中的节点i相连的边的数量D(U),并将该数量D(U)记为节点矩阵A中相应节点的度;
(4)根据上述数量D(U),利用下式,计算与D(U)大于2的节点相连的边的权重差异度量θ:
其中,j和k分别为步骤(2)的最小生成树中与节点i相连的节点;
(5)设定一个海量数据聚类处理的聚类值n,根据上述权重差异度量θ的大小,对相应节点进行排序,得到一个节点序列,将节点序列的前n-1个节点中边权重最大的边从上述步骤(2)的最小生成树中删除,得到n个互不相连的树,每个树中的节点构成一个数据聚类,共得到n个数据聚类,即完成基于最小生成树的海量数据聚类处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;中国电力科学研究院;国家电网公司;国网江苏省电力公司电力科学研究院,未经清华大学;中国电力科学研究院;国家电网公司;国网江苏省电力公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710467400.7/1.html,转载请声明来源钻瓜专利网。