[发明专利]基于分布式计算平台的层次聚类改进方法在审
申请号: | 201710403380.7 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107291843A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 肖甫;刘磊;王少辉;沙乐天;王汝传 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所32207 | 代理人: | 张芳 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于分布式计算平台的层次聚类改进方法,采用K‑均值算法将数据聚类为N个簇,对N个簇进行全排列,形成顺序不同的N!个序列,再利用BIRCH算法在Spark平台上计算,Spark平台利用分区的调配,并行化进行计算;根据数据簇的紧密性对结果进行筛选,保留数据簇紧密性最好且离群点个数最少的一组数据。本发明增强数据聚合的质量,提高了聚合效率。 | ||
搜索关键词: | 基于 分布式 计算 平台 层次 改进 方法 | ||
【主权项】:
基于分布式计算平台的层次聚类改进方法,其特征在于,包括,S1、主节点和从节点上分别安装有Hadoop和Spark集群,通过HDFS获取数据;S2、采用K‑均值算法将数据聚类为N个簇,N的范围为3~5的正整数;S3、对N个簇进行全排列,形成顺序不同的N!个序列,再利用BIRCH算法在Spark平台上计算,Spark平台利用分区的调配,并行化进行计算;S4、对S3的计算结果根据数据簇的紧密性进行筛选,保留数据簇紧密性最好且离群点个数最少的一组数据,所述数据簇的紧密性指计算数据簇的中心点到数据簇各个点的距离和。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710403380.7/,转载请声明来源钻瓜专利网。
- 上一篇:基于轨迹编码的轨迹查询方法
- 下一篇:分布式光伏远程设计SaaS系统及方法