[发明专利]一种基于超簇加权的集成聚类方法在审

申请号：	202011033044.6	申请日：	2020-09-27
公开（公告）号：	CN112232383A	公开（公告）日：	2021-01-15
发明（设计）人：	钱雪忠;薛红艳	申请（专利权）人：	江南大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	苏州市中南伟业知识产权代理事务所(普通合伙) 32257	代理人：	许燕萍
地址：	214122 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于加权集成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于超簇加权的集成聚类方法，先利用基于地标点表示的谱聚类方法对样本集进行聚类生成基聚类集合；基聚类集合由多个基聚类成员集合构成，每个基聚类成员包括多个类簇，每个类簇中包括样本集中的多个样本点；再对基聚类集合中的基聚类成员进行处理得到超簇集合，并计算出每个基聚类成员的权重，以及根据超簇集合和计算出的权重计算出共协矩阵；最后采用层次聚类方法对共协矩阵进行聚类得到聚类结果。本发明能够有效提升运算效率和聚类效果。

技术领域

本发明涉及数据挖掘与模式识别技术领域，具体涉及一种基于超簇加权的集成聚类方法。

背景技术

集成聚类通过对基聚类成员实施组合策略以得到更好的结果，现有的集成聚类研究主要集中在两个方面：一是如何生成高质量的基聚类集合。二是如何设计一致性函数得到集成结果。其中，生成高质量基聚类集合的方法主要有以下两种，一种是使用不同的聚类算法或同一聚类算法在不同参数下生成的聚类结果，另一种是对同一样本集进行非等值变形后使用同一聚类算法处理，非等值变形包括对样本集采样、投影等。一致性函数指使用组合策略将基聚类有效的组合起来，主要方法有共协矩阵、图分割、信息论等。

现有的集成聚类算法有K-means算法、谱聚类算法，密度聚类算法等， K-means算法实现简单，计算复杂度不高，但对于结构复杂的样本集，尤其是对于边界不易区分、非球形分布以及高维数据来说，K-means不能产生较好的聚类结果，而在大规模样本集上使用谱聚类，密度聚类等方法时，算法的时间和空间复杂度显著提升，导致其计算效率较低，极大的限制了其应用。另外，大多数集成聚类算法忽视了基聚类成员多样性的不同，平等地对待每个基聚类，也降低了聚类效果。

鉴于现有的集成聚类方法具有上述运算效率低和聚类效果差的缺陷，无法满足使用需求。

发明内容

本发明要解决的技术问题是提供一种基于超簇加权的集成聚类方法，能够有效提升运算效率和聚类效果。

为了解决上述技术问题，本发明提供的技术方案如下：

一种基于超簇加权的集成聚类方法，包括以下步骤：

1)利用基于地标点表示的谱聚类方法对样本集进行聚类生成基聚类集合；所述基聚类集合由多个基聚类成员集合构成，每个基聚类成员包括多个类簇，每个类簇中包括样本集中的多个样本点；

2)对基聚类集合中的基聚类成员进行处理得到超簇集合，并计算出每个基聚类成员的权重，以及根据超簇集合和计算出的权重计算出共协矩阵；

3)采用层次聚类方法对所述共协矩阵进行聚类得到聚类结果。

在其中一个实施方式中，所述步骤1)中利用基于地标点表示的谱聚类方法对样本集进行聚类生成基聚类集合的方法包括以下步骤：

A1)从样本集中随机选出P’个候选点，对P’个候选点使用K-means算法得出P个地标点；

A2)对P个地标点使用自适应谱聚类算法进行第一次聚类得到多个地标点簇，每个地标点簇中包括多个地标点；

A3)将样本集中的每个样本点分别映射到与该样本点距离最近的地标点上，以使得样本点划归到与该样本点距离最近的地标点所在的地标点簇中；

A4)重复步骤A2)-A3),直至完成M次聚类，得到M个基聚类成员，由多个基聚类成员构成所述基聚类集合。

在其中一个实施方式中，所述步骤A3)中，将样本集中的每个样本点分别映射到与该样本点距离最近的地标点上的方法为：先计算样本点与每个地标点簇的中心点的距离，并根据计算结果选择与样本点距离最近的地标点簇作为最近邻簇，再计算样本点与最近邻簇中各个地标点的距离，然后选择出最近邻簇中与样本点距离最近的地标点，并将样本点映射到最近邻簇中与该样本点距离最近的地标点上。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江南大学，未经江南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011033044.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种整体张拉的烟塔合一结构体系及其施工方法
下一篇：稀散金属细粉生产设备及生产方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于超簇加权的集成聚类方法在审

专利文献下载