[发明专利]一种基于局部密度和簇间框架距离的快速聚类方法在审
| 申请号: | 202111557696.4 | 申请日: | 2021-12-17 |
| 公开(公告)号: | CN114239727A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 朱彬;陈祥光;何勇 | 申请(专利权)人: | 湖南科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 411201*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 局部 密度 框架 距离 快速 方法 | ||
本发明提供了一种基于局部密度和簇间框架距离的快速聚类方法,包括以下步骤:S1、对各样本计算其近邻样本集,并据此计算该样本的局部密度;S2、对各样本计算该样本到距离该样本最近且局部密度更高的样本之间的距离,并据此构建决策图;S3、基于决策图选取排名最靠前的若干样本作为初始簇中心,将所有样本按照一种特定规则划分为以各初始簇中心为中心的若干子簇;S4、对每个子簇从该子簇中选取若干样本作为其框架;S5、反复合并簇间框架距离最小的子簇,直到子簇的数量等于目标值。本发明方法计算复杂性较低且聚类精度比较出色,适用于海量数据的聚类需求。
技术领域
本发明属于计算机科学与技术领域,特别涉及一种基于局部密度和簇间框架距离的快速聚类方法。
背景技术
随着互联网技术持续发展,不同行业、不同机构运营所产生的数据量也在持续增加。为了挖掘这些大规模的、多噪音的数据中所隐含的有价值的信息,高效的聚类方法变得越来越受重视。聚类属于机器学习技术中的无监督方法,是最为广泛使用的数据分析技术之一,其目标在于将无标签的数据集基于特定规则将其划分为若干个不同的簇类,使得属于同一簇类的样本具有较高的相似度,而属于不同簇类的样本相似度较低。
现有的传统聚类方法通常被分为两种类型:基于划分的方法和基于层次的方法。Kmeans是一种典型的基于划分的聚类方法,其优点在于聚类速度较快,然而其缺点在于对于簇类的形状敏感;基于层次的聚类通常在初始状态下将每一个样本点都看做是一个簇类,反复合并距离最近的簇类,直到簇类的数量达到目标值,如HAC(凝聚层次聚类)是一种典型的基于层次的聚类方法,其可以识别任意形状的簇类。然而在聚类开始之前HAC需要计算样本之间的距离矩阵,计算量以及内存空间消耗较大。
综上,一种能同时满足计算复杂度较低、占用内存空间较小且聚类精度良好的聚类算法是迫切需要的。
发明内容
本发明提供了一种基于局部密度和簇间框架距离的快速聚类方法,相比传统聚类方法,该方法无需计算样本间的距离矩阵,通常情况下,时间复杂度仅需O(n log n),空间复杂度仅需O(n),同时该方法能够识别任意形状的簇类,聚类精度优于目前主流聚类算法。
本发明提供一种基于局部密度和框架簇间距离的快速聚类方法,其步骤如下:
S1、输入数据集X以及聚类的目标簇数k,利用快速近邻搜索算法得到各样本的近邻样本集,并据此计算各样本的局部密度;
S2、计算各样本到与该样本距离最近且密度更高的样本之间的距离,并据此构建决策图;
S3、基于决策图选取排名最靠前的若干样本作为初始簇中心,将所有样本按照一种特定规则划分为以各初始簇中心为中心的若干子簇;若子簇的数量等于聚类的目标簇数k,则聚类结束,输出子簇作为最终聚类的簇类;否则,进入步骤S4;
S4、对每个子簇从该子簇中选取若干个样本用于表示其框架;
S5、反复合并簇间框架距离最小的子簇,直到簇的数量等于目标值。
本发明步骤S1的具体方法为:
S1.1、输入数据集X={x1,x2,…,xn},其中xi是一个d维向量代表一条数据;输入聚类目标簇数k;
S1.2、对每个样本xi,利用快速近邻搜索算法kd-tree得到其∈近邻样本集合N∈(i)={x′1,x′2,…},其中x′j是与xi之间距离不超过∈的样本,∈是用户定义的参数;
S1.3、根据每个样本xi的∈近邻样本集合N∈(i),计算其局部密度
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南科技大学,未经湖南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111557696.4/2.html,转载请声明来源钻瓜专利网。





