[发明专利]一种基于改进K-means算法和新聚类有效性指标的聚类分析方法在审
申请号: | 201911146579.1 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110909792A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 朱二周;高新;刘锋 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 唐红 |
地址: | 230000 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 means 算法 新聚类 有效性 指标 聚类分析 方法 | ||
1.一种基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,包括以下步骤:
(1)输入数据集,所述数据集包含n个数据点,每个数据点包含m维的数值型属性,设定数据集待聚类的聚类簇数上限Kmax,Kmax为不大于的最大正整数;
(2)计算每两个数据点之间的欧几里得距离;
(3)寻找欧几里得距离中的最大值和最小值,分别记为Dmax与Dmin;
(4)根据Dmax与Dmin确定阈值;
(5)统计与各数据点的欧几里得距离小于阈值的数据点个数,作为数据点的密度信息;
(6)标记密度信息为0的点为离群点;
(7)定义第一集合,第一集合中包含密度信息不为0的数据点及数据点对应的密度信息;
(8)定义第二集合,从第一集合中选取密度信息最大的数据点和第二大的数据点放入第二集合;从第一集合中移除该两个数据点;
(9)将步骤(8)得到的第二集合中的数据点作为初始的中心点进行K-means聚类;
(10)分别计算第一集合中的每个数据点与两个初始聚类中心点的欧几里得距离,选择聚类较近的聚类中心点作为该数据点的中心点类别,并将每个数据点的类标签标记为该中心点类别;
(11)对每个类别内的数据,设置虚拟中心点类标签为类内数据类别,虚拟中心点各维度的坐标信息为类内数据不包含密度信息的各维度坐标信息算术平均值;
(12)若虚拟中心点与真实的数据点重合,则更新该类别的聚类中心点为该虚拟中心点;若虚拟中心点与数据点不重合,则更新该类别的聚类中心点为类内距离虚拟中心点最近且距离离群点最远的点;
(13)计算更新后的聚类中心点与更新前的聚类中心点之间的欧几里得距离,若为0则聚类完成,执行步骤(14);若不为0跳转执行步骤(10);
(14)根据聚类结果计算聚类有效性指标的值;
(15)统计第二集合中的聚类中心点个数,若聚类中心点个数小于Kmax,则从第一集合中选取密度信息最大的数据点放入第二集合,作为新的聚类中心点,然后从第一集合中移除该数据点并跳转步骤(9);否则执行步骤(16);
(16)输出在聚类有效性指标最佳时的聚类结果。
2.根据权利要求1所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(1)中,每个数据点具有m维属性,记数据集为D={x1,x2,…,xn},xi表示第i个数据点;记数据点为xi=(xi1,xi2,…,xim),xij表示第i个数据点的第j维属性。
3.根据权利要求2所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(2)中,第i个数据点xi与第j个数据点xj之间的欧几里得距离d(xi,xj)的计算方法为:
4.根据权利要求1至3任一所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(4)中,设阈值为ε,根据Dmax与Dmin确定阈值ε的方法为:
ε=(Dmax+Dmax)/(2*Kmax)
其中KmaxK为数据集待聚类的簇数上限。
5.根据权利要求4所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(5)中,数据点xi的密度信息ρ(xi)为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911146579.1/1.html,转载请声明来源钻瓜专利网。