[发明专利]一种基于超簇加权的集成聚类方法在审
申请号: | 202011033044.6 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112232383A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 钱雪忠;薛红艳 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 许燕萍 |
地址: | 214122 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加权 集成 方法 | ||
本发明公开了一种基于超簇加权的集成聚类方法,先利用基于地标点表示的谱聚类方法对样本集进行聚类生成基聚类集合;基聚类集合由多个基聚类成员集合构成,每个基聚类成员包括多个类簇,每个类簇中包括样本集中的多个样本点;再对基聚类集合中的基聚类成员进行处理得到超簇集合,并计算出每个基聚类成员的权重,以及根据超簇集合和计算出的权重计算出共协矩阵;最后采用层次聚类方法对共协矩阵进行聚类得到聚类结果。本发明能够有效提升运算效率和聚类效果。
技术领域
本发明涉及数据挖掘与模式识别技术领域,具体涉及一种基于超簇加权的 集成聚类方法。
背景技术
集成聚类通过对基聚类成员实施组合策略以得到更好的结果,现有的集成 聚类研究主要集中在两个方面:一是如何生成高质量的基聚类集合。二是如何 设计一致性函数得到集成结果。其中,生成高质量基聚类集合的方法主要有以 下两种,一种是使用不同的聚类算法或同一聚类算法在不同参数下生成的聚类 结果,另一种是对同一样本集进行非等值变形后使用同一聚类算法处理,非等 值变形包括对样本集采样、投影等。一致性函数指使用组合策略将基聚类有效 的组合起来,主要方法有共协矩阵、图分割、信息论等。
现有的集成聚类算法有K-means算法、谱聚类算法,密度聚类算法等, K-means算法实现简单,计算复杂度不高,但对于结构复杂的样本集,尤其是 对于边界不易区分、非球形分布以及高维数据来说,K-means不能产生较好的 聚类结果,而在大规模样本集上使用谱聚类,密度聚类等方法时,算法的时间 和空间复杂度显著提升,导致其计算效率较低,极大的限制了其应用。另外, 大多数集成聚类算法忽视了基聚类成员多样性的不同,平等地对待每个基聚类, 也降低了聚类效果。
鉴于现有的集成聚类方法具有上述运算效率低和聚类效果差的缺陷,无法 满足使用需求。
发明内容
本发明要解决的技术问题是提供一种基于超簇加权的集成聚类方法,能够 有效提升运算效率和聚类效果。
为了解决上述技术问题,本发明提供的技术方案如下:
一种基于超簇加权的集成聚类方法,包括以下步骤:
1)利用基于地标点表示的谱聚类方法对样本集进行聚类生成基聚类集合; 所述基聚类集合由多个基聚类成员集合构成,每个基聚类成员包括多个类簇, 每个类簇中包括样本集中的多个样本点;
2)对基聚类集合中的基聚类成员进行处理得到超簇集合,并计算出每个基 聚类成员的权重,以及根据超簇集合和计算出的权重计算出共协矩阵;
3)采用层次聚类方法对所述共协矩阵进行聚类得到聚类结果。
在其中一个实施方式中,所述步骤1)中利用基于地标点表示的谱聚类方 法对样本集进行聚类生成基聚类集合的方法包括以下步骤:
A1)从样本集中随机选出P’个候选点,对P’个候选点使用K-means算法 得出P个地标点;
A2)对P个地标点使用自适应谱聚类算法进行第一次聚类得到多个地标点 簇,每个地标点簇中包括多个地标点;
A3)将样本集中的每个样本点分别映射到与该样本点距离最近的地标点 上,以使得样本点划归到与该样本点距离最近的地标点所在的地标点簇中;
A4)重复步骤A2)-A3),直至完成M次聚类,得到M个基聚类成员,由多个 基聚类成员构成所述基聚类集合。
在其中一个实施方式中,所述步骤A3)中,将样本集中的每个样本点分别 映射到与该样本点距离最近的地标点上的方法为:先计算样本点与每个地标点 簇的中心点的距离,并根据计算结果选择与样本点距离最近的地标点簇作为最 近邻簇,再计算样本点与最近邻簇中各个地标点的距离,然后选择出最近邻簇 中与样本点距离最近的地标点,并将样本点映射到最近邻簇中与该样本点距离 最近的地标点上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011033044.6/2.html,转载请声明来源钻瓜专利网。