[发明专利]一种基于局部方向中心性的数据分布式聚类方法及装置在审
申请号: | 202211265216.1 | 申请日: | 2022-10-17 |
公开(公告)号: | CN115658809A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 桂志鹏;黄子晨;彭德华 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/182;G06F18/23213;G06F16/13 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430072 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 方向 心性 数据 分布式 方法 装置 | ||
本发明公开了一种基于局部方向中心性的数据分布式聚类方法及装置,其中的方法包括以下步骤:S1、在分布式集群环境中提交算法任务所需参数,读取待聚类数据;S2、基于完整数据构建优先搜索K‑means树全局索引,并共享索引变量至集群各工作节点;S3、结合数据采样和Hilbert曲线分区方法对完整数据进行划分;S4、在各工作节点上并行执行CDC局部聚类;S5、根据局部类簇的最大可达距离进行分区间类簇合并,生成完整的类簇;S6、将聚类结果输出到分布式文件系统中。本发明方法从算法流程优化与并行处理优化两个角度对CDC聚类算法进行分布式优化与加速,旨在提高CDC算法的计算效率,为该算法在海量数据挖掘、机器学习任务中的应用提供一种可行的优化方案。
技术领域
本发明涉及大数据挖掘技术领域,尤其涉及一种基于局部方向中心性的数据分布式聚类方法及装置。
背景技术
近年来,大量聚类算法研究针对任意形状类簇识别、异常值检测、高维数据处理等问题已提出了行之有效的解决方案,但数据分布的密度异质性和弱连接性仍是聚类分析应用场景中普遍存在却悬而未决的难题。由于类簇的内部点倾向于在所有方向上被其邻居点包围,而边界点仅在一定方向范围内有邻居点,根据此近邻方向分布差异能够划分内部点和边界点。据此,局部方向中心性聚类算法CDC通过建立局部方向中心性量度(DirectionCentrality Metric,DCM)衡量数据点K最近邻(K-Nearest Neighbor,KNN)分布的方向均匀性,以密度无关方式来实现类簇内部点与边界点划分;同时,利用边界点约束内部点连接,可避免跨簇连通,实现弱连接簇的分离,为解决上述问题提供了有效方案。该算法的精度已在人造及真实数据集得到验证,但近邻搜索具有O(n2)级别时间复杂度,随着数据规模增大计算效率显著降低,甚至出现单机无法计算的情况,无法应对如今指数式增长的数据规模。针对以上问题,除了需要改进流程以减少算法自身的时间复杂度,还可以从并行计算的角度提高聚类算法的分布式计算效率。
并行化已成为目前聚类算法性能优化的热点。常用分布式计算框架包括Hadoop、Spark及Flink等,其中Spark是新一代大数据并行处理平台,具有简单易用、功能丰富、自动容错等优点。与经典的大数据并行处理平台Hadoop相比,Spark基于内存的数据管理使其更适合需要多轮迭代的聚类算法。现有研究已提出诸多基于Spark的聚类算法并行化方案。这些研究通过将算法设计为数据分区、分布式的局部聚类和全局合并三个阶段,在一定程度上提高了大数据聚类的效率;然而Spark默认分区策略因忽视了类簇的空间邻近性容易导致分区数据负载不均衡。当分区中的数据倾斜时,会造成Shuffle阶段节点不平衡的工作负载,即集群中各节点处理数据量差异大、执行时间不一致,从而会降低集群资源的利用率及分布式算法的计算效率。
由此可知,现有技术中存在计算效率不高和分区效果不佳的技术问题。
发明内容
本发明提供了一种基于局部方向中心性聚类的数据分布式聚类方法及装置,用以解决或者至少部分解决现有技术中存在的计算效率不高和分区效果不佳的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于局部方向中心性的数据分布式聚类方法,包括:
S1:接收聚类任务所需的参数,包括环境参数、聚类算法参数、分区参数、近邻搜索参数,配置并注册序列化器,从分布式文件系统中读取待聚类的完整数据;
S2:基于读取的待聚类的完整数据构建优先搜索K-means树全局索引,通过分布式集群的主节点将全局索引共享给各工作节点;
S3:结合数据采样和Hilbert曲线分区方法对待聚类的完整数据进行分区,并得到对应的分区ID,通过分布式集群的主节点将分区ID对应的分区数据发送至对应的工作节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211265216.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自清洗泵前过滤器
- 下一篇:一种灯管灯光测试仪及其使用方法