[发明专利]一种基于最小生成树的海量数据聚类处理方法在审
申请号: | 201710467400.7 | 申请日: | 2017-06-20 |
公开(公告)号: | CN107506778A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 程林;贺海磊;刘满君;周勤勇;张彦涛;梁才浩;刘琛;江轶 | 申请(专利权)人: | 清华大学;中国电力科学研究院;国家电网公司;国网江苏省电力公司电力科学研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最小 生成 海量 数据 处理 方法 | ||
技术领域
本发明一种基于最小生成树的海量数据聚类处理方法,属于分类学及数据挖掘算法技术领域。
背景技术
随着计算机科学的进步,越来越多的数据分析中由于样本数量庞大,样本点难以按照统一的分布形式描述,因此需要进行前期的数据聚类处理。聚类是将一系列有关联的数据对象彼此组合,从而构成若干相关关系较强的数据集合的方法,使得在每一个数据集合中的多个对象彼此具有较为紧密的联系关系。
目前常用的聚类方法包含k-means聚类方法、层次聚类法和模糊聚类算法等。这些方法多数依赖于初始状态的选取,聚类依据完全依照样本点之间的距离度量进行判定,对一些有特定物理意义的样本聚类效果并不好。
然而在机器学习领域及相关的应用场景中,常常会出现物理意义大规模的数据训练模型的场景,如若不对数据进行聚类处理,则训练过程对硬件在内部存储和计算速度均有较高的要求。此外,通过常用聚类方法得到的聚类结果难以融入物理意义的概念,因此得到的结果往往不尽人意,导致后续数据分析与模型训练工作出现较大误差,进而对相关研究的开展造成重大损失。为了改善这个问题,需要在传统聚类方法的基础上加以改善,使用新的方式对物理意义较强的样本数据进行处理,从而得到理想的数据结果。
在聚类算法中加入人工决策辅助是避免上述误差的可行方法之一。常用聚类方法过程单一,计算过程冗长复杂,难以融入人工判断决策的影响,因此本专利中使用了最小生成树算法设计了一种改进的样本点聚类方法。最小生成树算法是规划应用领域常用的算法之一,通过计算多个节点的最小生成树可以实现工程应用中建设费用或其他各方面性能最优的设计方案,并且可以建立数据点的树状结构,由于其简明的特点方便决策者进行分析,因此适合用于提升聚类方法的处理性能。
天气条件信息在电力研究领域常用于各类分布式电源的出力预测问题中。然而,由于天气条件种类多且数据繁杂,因此无法再实际计算中直接应用。
发明内容
本发明的目的是提出一种基于最小生成树的海量数据聚类处理方法,通过普利姆算法和人工辅助决策实现海量数据的聚类处理,从而为后续数据分析工作提供支持。
本发明提出的基于最小生成树的海量数据聚类处理方法,包括以下步骤:
(1)将待处理海量数据U转化为节点矩阵A;
设定待处理海量数据U中的任意两个数据之间的距离为dist(·,·),将该距离dist(·,·)作为矩阵A的赋值,与节点矩阵A相对应的是一个全连通图,全连通图的边权重为dist(·,·),并将该距离dist(·,·)作为任意两个数据之间的边权重,设待处理海量数据的数目为m,则节点矩阵A如下式所示:
(2)利用普利姆方法对节点矩阵A进行处理,得到一个最小边权重节点稀疏矩阵Am:
Am=Lm+Um
与上述节点稀疏矩阵Am相对应的是一个最小生成树,其中Lm为Am的下半部分,Um为Am的上半部分;
(3)分别统计上述步骤(2)中的矩阵Lm的第i行和第i列中与最小生成树中的节点i相连的边的数量D(U),并将该数量D(U)记为节点矩阵A中相应节点的度;
(4)根据上述数量D(U),利用下式,计算与D(U)大于2的节点相连的边的权重差异度量
其中,j和k分别为步骤(2)的最小生成树中与节点i相连的节点;
(5)设定一个海量数据聚类处理的聚类值n,根据上述权重差异度量的大小,对相应节点进行排序,得到一个节点序列,将节点序列的前n-1个节点中边权重最大的边从上述步骤(2)的最小生成树中删除,得到n个互不相连的树,每个树中的节点构成一个数据聚类,共得到n个数据聚类,即完成基于最小生成树的海量数据聚类处理。
本发明提出的基于最小生成树的海量数据聚类处理方法,其特点是:
本发明通过计算最小生成树的普利姆算法,提出了海量数据的聚类处理方法,也适用于物理意义较强的多维样本数据的聚类处理。由于使用了最小生成树算法,因此该方法在计算过程中可以结合聚类技术中的距离度量作为树支权重进行解析,从而生成整体联系最为紧密的最小生成树。在此基础上,结合清晰简明的样本点树状结构,可以便于决策者进行适当的人工辅助修正,最终得到理想的样本簇分类。
本发明具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;中国电力科学研究院;国家电网公司;国网江苏省电力公司电力科学研究院,未经清华大学;中国电力科学研究院;国家电网公司;国网江苏省电力公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710467400.7/2.html,转载请声明来源钻瓜专利网。