[发明专利]一种基于改进K-means算法和新聚类有效性指标的聚类分析方法在审

申请号：	201911146579.1	申请日：	2019-11-21
公开（公告）号：	CN110909792A	公开（公告）日：	2020-03-24
发明（设计）人：	朱二周;高新;刘锋	申请（专利权）人：	安徽大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	唐红
地址：	230000 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进 means 算法新聚类有效性指标聚类分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于改进K‑means算法和新聚类有效性指标的聚类分析方法，首先通过密度信息获取高密度初始聚类中心点，按照初始聚类中心点进行K‑means算法聚类；不断迭代聚类中心点；计算聚类有效性指标的值并将最小的聚类有效性指标对应的簇数作为数据集的最佳聚类数并输出最佳聚类结果。本发明可以有效的降低K‑means聚类算法的迭代次数，减少聚类时间消耗，提升聚类效率；高密度初始中心点和中心点替换方法的结合降低了K‑means聚类算法陷入局部最优解的可能性；聚类结果稳定精确。

技术领域

本发明属于数据挖掘聚类分析领域，尤其涉及一种基于密度参数计算初始聚类中心和中心点替换方法的改进K-means算法和新聚类有效性指标的聚类分析方法。

背景技术

聚类分析是研究分类问题的一种统计分析方法也是数据挖掘的一个重要方法。聚类分析的研究主要包括两个方面，即聚类算法的研究和聚类有效性指标的研究。聚类算法将待分析的数据集分为多个类，使得同一个类内的数据具有更高的相似性，不同类之间的数据具有更高的差异性。作为无监督学习方式，聚类算法产生的结果的优劣通常用聚类有效性指标来衡量或者评价。

当前，已有许多聚类算法被提出来并用于对各种类型的数据集进行处理。总体来讲，这些聚类算法可以分为基于划分的聚类算法，基于层次的聚类算法，基于密度的聚类算法，基于网格的聚类算法以及基于模型的聚类算法。K-means算法是一种基于划分的聚类算法。由于K-means算法具有实现简单，准确率高等特点，因此被广泛应用于解决各种领域的数据划分问题。然而，初始聚类中心点的随机选取，会导致传统的K-means聚类算法存在聚类结果不稳定、聚类效率低下、容易出现局部最优解等问题。

聚类有效性是指度量聚类算法产生的聚类结果的有效性。聚类有效性的评价通常由聚类有效性指标来完成。当前，已有的聚类有效性指标可以大体分为三类，即内部有效性指标、外部有效性指标和相对有效性指标。目前常用的有效性指标包含J.C.Dunn于1973年提出的Dunn指标，Tadeusz Caliński等人于1974年提出的CH指标，David L.Davies等人于1979年提出的DBI指标等。这些指标被广泛应用于聚类算法聚类有效性的评估中。然而现有的聚类有效性指标普遍存在计算复杂，适用数据集类型范围狭窄等缺点。

发明内容

发明目的：为了解决现有技术中使用K-means聚类法处理数据不稳定的问题，本发明提供一种基于改进K-means算法和新聚类有效性指标的聚类分析方法。

技术方案:本发明提供一种基于改进K-means算法和新聚类有效性指标的聚类分析方法，包括以下步骤：

(1)输入数据集，所述数据集包含n个数据点，每个数据点包含m维的数值型属性，设定数据集待聚类的簇数上限K_max，K_max为不大于的最大正整数；

(2)计算每两个数据点之间的欧几里得距离；

(3)寻找欧几里得距离中的最大值和最小值，分别记为D_max与D_min；

(4)根据D_max与D_min确定阈值；

(5)统计与各数据点的欧几里得距离小于阈值的数据点个数，作为数据点的密度信息；

(6)标记密度信息为0的点为离群点；(7)定义第一集合，第一集合中包含密度信息不为0的数据点及数据点对应的密度信息；

(8)定义第二集合，从第一集合中选取密度信息最大的数据点和第二大的数据点放入第二集合；从第一集合中移除该两个数据点；

(9)将步骤(8)得到的第二集合中的数据点作为初始的中心点进行K-means聚类；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。