[发明专利]基于动态包围盒最大间隙切分的竞争合作聚类方法有效

申请号：	201410419179.4	申请日：	2014-08-22
公开（公告）号：	CN104143009B	公开（公告）日：	2017-03-08
发明（设计）人：	陈仁喜;周绍光	申请（专利权）人：	河海大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京纵横知识产权代理有限公司32224	代理人：	董建林
地址：	211100 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于动态包围最大间隙切分竞争合作方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于动态包围盒最大间隙切分的竞争合作聚类方法，属于数据挖掘技术领域。

背景技术

聚类(Clustering)是将一批现实或抽象的数据对象分组成为多个类或簇的过程,是人们认识和探索事物之间内在联系的有效手段。通常采用的聚类方法有K-means、ISODATA和模糊聚类等。K-means是一种基于均方误差(MSE)最小化准则的聚类方法，但此类算法存在两个主要缺陷：1)K-means需要事先确定确切的类别数，但在实际应用中，很难确定这个参数；2)容易产生所谓的“坏单元”(dead unit)现象。如果某个初始聚类中心给得不合适，将导致没有任何输入数据归属于该初始中心，该初始中心成为一个“坏单元”。为了克服这些缺陷，研究者提出了竞争学习(Competitive Learning,CL)聚类算法,例如:频率敏感竞争学习算法(Frequency sensitive competitive algorithm,FSCL)采用减少频繁获胜种子获胜率的机制来解决坏单元问题；次胜者受罚竞争学习(Rival Penalizing Competitive Learning,RPCL)算法采用对次优种子点的排斥机制将冗余种子点推离输入样本空间，从而实现类别数目的自动确定；次胜者受罚的约束竞争学习(Rival penalized controlled competitive learning,RPCCL)是RPCL的改进，实现了反学习率的自动确定，避免RPCL对反学习率敏感的缺陷问题；基于代价函数极小化准则的距离敏感(Distance sensitive DSRPL)算法。虽然这些改进的竞争学习算法提高了一些性能，但仍然存在收敛性问题，另外由于算法中的排斥机制引起聚类中心定位偏差。竞争与合作学习的算法(Competitive and cooperative learning,CCL)则引入合作机制，避免冗余种子点被排斥出输入样本空间，同时又保证聚类中心的准确定位；同时CCL算法也避免了RPCCL聚类算法的不收敛性问题。但CCL算法仍然存在一些不可避免的问题：1)具有初始种子点敏感问题。通常的聚类算法采用随机化方法获得初始种子点，导致算法迭代次数和聚类结果的不稳定；2)无法适用于分布不平衡的异构数据，有些数据点稀少的聚类无法正确识别；3)聚类结果碎化问题。CCL算法有时会导致本来属于同一个聚类的数据被分解成为多个子类。从直观上来看，这些数据应该属于同一个类别。

以上这些问题的存在，影响CCL聚类算法的使用效果和实用价值，有必要对CCL算法的这些缺陷进行改良。

发明内容

本发明的目的在于提供一种基于动态包围盒最大间隙切分的竞争合作聚类方法，对原始CCL聚类算法进行有针对性的改进，更加快速的获得真实的聚类结果。

为达到上述目的，本发明采用的技术方案如下：

基于动态包围盒最大间隙切分的竞争合作聚类方法，包括以下步骤：

1)设定初始聚类类别数K；

2)对N个输入数据进行分析，采用动态包围盒最大间隙切分算法初始化K个种子点，具体步骤如下：

2-1)将输入数据作为多维空间的点，计算能包含所有输入数据的最小外包矩形；

2-2)比较最小外包矩形各个维度上的长度，选择长度最大对应的维度为切分轴；

2-3)将所有输入数据点投影到该切分轴，，然后将投影点按照由小到大的顺序进行排列；

2-4)计算前后两个相邻投影点之间的距离，选择距离最大的两个相邻投影点作为切分位置，将输入数据沿着该切分轴分成两个子集；

2-5)选择所有子集中包围盒体积最大的那个子集再次执行步骤2-1)—2-4)，对该子集进行一分为二；