[发明专利]基于分布式计算平台的层次聚类改进方法在审
| 申请号: | 201710403380.7 | 申请日: | 2017-06-01 |
| 公开(公告)号: | CN107291843A | 公开(公告)日: | 2017-10-24 |
| 发明(设计)人: | 肖甫;刘磊;王少辉;沙乐天;王汝传 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京知识律师事务所32207 | 代理人: | 张芳 |
| 地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 分布式 计算 平台 层次 改进 方法 | ||
1.基于分布式计算平台的层次聚类改进方法,其特征在于,包括,
S1、主节点和从节点上分别安装有Hadoop和Spark集群,通过HDFS获取数据;
S2、采用K-均值算法将数据聚类为N个簇,N的范围为3~5的正整数;
S3、对N个簇进行全排列,形成顺序不同的N!个序列,再利用BIRCH算法在Spark平台上计算,Spark平台利用分区的调配,并行化进行计算;
S4、对S3的计算结果根据数据簇的紧密性进行筛选,保留数据簇紧密性最好且离群点个数最少的一组数据,所述数据簇的紧密性指计算数据簇的中心点到数据簇各个点的距离和。
2.根据权利要求1所述的层次聚类改进方法,其特征在于,S3中所述利用BIRCH算法在Spark平台上计算的具体过程为:程序被提交到Spark平台后,为程序分配资源,将程序转换并执行,程序中有多个任务,每个任务根据数据集的宽依赖关系切分为若干Stage,每个Stage中包含一组Task,每个Task对应一个分区,最后Task被封装好后放入Executor的线程池中进行并行化计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710403380.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于轨迹编码的轨迹查询方法
- 下一篇:分布式光伏远程设计SaaS系统及方法





