[发明专利]一种基于分形技术的分布式聚类方法在审
申请号: | 201611257250.9 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106777298A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张岩龙;邓军;幸勇 | 申请(专利权)人: | 成都数联易康科技有限公司;西南交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都中亚专利代理有限公司51126 | 代理人: | 王岗 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 技术 分布式 方法 | ||
技术领域
本发明涉及聚类处理相关领域,尤其是一种基于分形技术的分布式聚类方法。
背景技术
聚类分析是数据挖掘领域的一项重要研究内容,聚类算法在金融业务员、保险业、市场营销、网络安全、科学决策等方面的应用越来越广泛。目前已有的聚类算法大多只适用于集中式数据的聚类。而实际中的数据却是分布在不同的站上,如果使用传统的聚类算法从这些分布式数据中提取信息,就必须把这些数据合并到一个中心站点上。由于传输速度和安全因素的限制,把各站点的数据合部集中到某一个中心站点上是十分困难的。而且所有站点数据集中在一起,数据量会非常庞大,聚类效率会显著降低。
经过检索发现专利号CN200710156189.3的发明公开了一种面向互联网微内容的分布式聚类方法。本发明采用多机分布式聚类的方法,主控机器把要处理的微内容切分成多个小文件,并把这些小文件分配给多台聚类机器进行聚类操作。单台聚类机器对分配到的各个小文件循环进行元聚类,接着合并这些元聚类结果文件,得到相应的单机聚类合并文件,然后把它发送给主控机器。主控机器在接收到各个聚类机器发送过来的单机聚类合并文件后,从各个单机聚类合并文件中抽取微内容代表点,对这些微内容代表点进行再次元聚类,生成新的聚类项,并将对应的类别合并,得到最后的聚类结果。
专利号CN201510747122.1的发明公开了一种海量负荷曲线的分布式聚类方法,其通过将受聚类区域内所有用户划分为M个用户子集,并对应每一个用户子集设置一个局部数据中心,用各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类,以减少待分析的用电数据,再对应所述受聚类区域设置一个全局数据中心,并全局数据中心对接收到的所有局部典型曲线进行全局的聚类分析,从而使得每一个局部数据中心的每一条原始日负荷曲线能够归属到相应的全局聚类。
传统聚类方法的一个前提是数据集中在一个站点,需要一次性载入内存。然而,在许多环境中,局域网、广域网、Internet网将多个数据源连成一个大型分布式异构数据库,用户需要处理大量、多计算节点、不同地理分布的数据,并需要保护数据的隐私和安全。集中式聚类算法不能很好地应用到分布式环境中,以往的分布式聚类算法其通信量和中心节点的计算工作量均较大,即使允许集中执行大量的数据,要么算法崩溃,要么执行效率太低,其长时间的执行,让用户难以接受。数据存储方式的变化对聚类算法的并行性和分布化都提出了要求。
发明内容
本发明的目的在于克服现有技术的不足,在此提供一种基于分形技术的分布式聚类方法。解决了以往的分布式聚类算法其通信量和中心节点的计算工作量大的难题,该算法比以往的分布式聚类算法减少了通信量和中心节点的计算工作量,该算法充分利用分形维度作为相似性衡量的标准,使得簇之间分形维度变化最大,簇内分形维度变化最小。通过将分析维度引入到聚类算法,利用分形维度固有的自相似性来提高聚类算法的适应性。
本发明是这样实现的,构造一种基于分形技术的分布式聚类方法,其特征在于:该方法的步骤如下:
步骤1:数据预处理;
步骤2:抽样聚类:中心节点从各子节点抽取总数量为N的数据并聚类;
步骤3:全局聚类;
步骤4:迭代完成步骤2-步骤3,直到达到最大抽样次数L;
步骤5:中心节点J0经过L次抽样聚类后;
步骤6:各子节点计算本地数据点的平均分形维数;
步骤7:各子节点计算本地数据点的平均分形维数与k个分形聚类中心的距离,将其划分为最近的那个聚类,即为最终聚类结果。
根据本发明所述一种基于分形技术的分布式聚类方法,其特征在于:
步骤1:数据预处理包括如下步骤;
步骤1.1:中心节点J0发出指令获取各子节点本地数据集的分布情况;
步骤1.2:各子节点计算本地数据集中的记录数ni及各属性的取值范围(Amin与Amax),并将数据上传至中心节点J0;
步骤1.3:中心节点J0合并各子节点数据集中各属性的取值范围,得到全局数据集中各属性的取值范围(A′min与A′max),然后将全局数据量n、A′min与A′max广播至各子节点;
步骤1.4:各子节点上本地数据中的各属性值按照属性的全局取值范围进行标准化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联易康科技有限公司;西南交通大学,未经成都数联易康科技有限公司;西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611257250.9/2.html,转载请声明来源钻瓜专利网。