[发明专利]一种基于Spark计算模型的K‑Means算法优化方法在审

申请号：	201710575225.3	申请日：	2017-07-11
公开（公告）号：	CN107392239A	公开（公告）日：	2017-11-24
发明（设计）人：	王诚;徐鹏程	申请（专利权）人：	南京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京经纬专利商标代理有限公司32200	代理人：	朱小兵
地址：	210023 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 spark 计算模型 means 算法优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据处理领域，涉及一种基于Spark计算模型的K-Means算法优化方法。

背景技术

聚类作为一种无监督的机器学习算法，能够将数据对象中具有共同性质数据划分为若干子集。每个子集形成一个簇，使得相同簇中的所有样本具有近似的特征，不同簇中的样本彼此不相似。在相同的数据集上，不同的聚类方法可能产生不同的聚类结果。K-Means算法是一种基于划分的算法，具有实现简单、效率较高的特点，但存在对初始中心选取依赖性强、分类数K未必总是已知及算法频繁迭代资源开销大等缺点。

在K-Means聚类算法中，初始中心和分类数的选取对聚类具有重要意义，合理的选取往往使得结果更具可靠性。但是，已有的K-Means改进算法大都是针对其中一项的改进，而且仅仅实现了单机上运行，这就大大地影响了算法的时效性和伸缩性，因此它不能处理大规模数据。通过在算法中引入Spark云计算平台，由于其具有基于内存的迭代式计算的特点，通过将上一个任务的处理结果缓存在内存中，而不需要反复读写HDFS。除此以外，Spark不像传统的MapRuduce只分为Map和Reduce两个阶段，处理之后就结束了。Spark由于内存计算的特点，能够将任务分为多个阶段进行计算，因此更适合需要大量迭代的场合。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提出一种基于Spark计算模型的K-Means算法优化方法，在解决了K值的不确定性和聚类中心选取缺陷的同时，引入云计算平台，构建Spark运算模型实现并行环境下聚类结果的获取。

本发明为解决上述技术问题采用以下技术方案

一种基于Spark计算模型的K-Means算法优化方法，具体包含如下步骤：

步骤1，对数据集进行预处理；

步骤2，将预处理后的数据集划分成数据样本集{X₁，X₂，X₃...X_n}；

步骤3，为步骤2划分的数据样本集{X₁，X₂,X₃...X_n}配置迭代终止阈值和T1、T2；其中，T1表示Canopy外侧圆的半径，T2表示Canopy内侧圆的半径；

步骤4，对数据样本集{X₁，X₂，X₃...X_n}进行Map操作；

步骤5，将步骤4的Map结果形成的RDD对象汇总进行Reduce操作：

步骤6，取各RDD对象的Reduce结果：按照RDD中Key相同的样本点被分为同一组的原则，输出海量数据下的聚类结果。

作为本发明一种基于Spark计算模型的K-Means算法优化方法的进一步优选方案，在步骤1中，数据预处理包含清理及整合不完整的脏数据，对数量型数据进行离散化处理。

作为本发明一种基于Spark计算模型的K-Means算法优化方法的进一步优选方案，所述步骤4具体包含如下步骤；

步骤4.1，读取Canopy算法和最大最小距离算法产生的K个中心点并保存，其中K为正整数；

步骤4.2，在数据集RDD的Map操作中进行相似性比较，进行Map操作求相似度最高的中心点，将数据样本集中的每个点映射成中心点和样本点组成的键值对的格式；

步骤4.3，生成新的RDD对象，保存到每个worker节点的内存中。

作为本发明一种基于Spark计算模型的K-Means算法优化方法的进一步优选方案，所述步骤5具体包含如下步骤：

步骤5.1，将步骤4中形成的RDD对象按id进行Reduce操作，对相同中心点id下的所有样本点进行求和，生成的RDD中心点状态集合结构包含中心点id、样本点各属性的和与样本点数量和；

步骤5.2，将步骤5.1生成的RDD中心点状态集合求平均生成新的RDD中心点集合，保存新的RDD中心点集合的信息；

步骤5.3，重新计算Reduce操作后的RDD对象关于各自中心点的误差平方和，如果误差平方和与上一次计算的误差平方和结果之差小于迭代终止阈值，则说明聚类结果已经收敛，否则继续进行迭代。

作为本发明一种基于Spark计算模型的K-Means算法优化方法的进一步优选方案，在步骤4.1中，K取值3。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710575225.3/2.html，转载请声明来源钻瓜专利网。

上一篇：基于移动视觉搜索的户外植物知识拓展学习系统
下一篇：图像检测方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Spark计算模型的K‑Means算法优化方法在审

专利文献下载