[发明专利]一种基于局部密度和簇间框架距离的快速聚类方法在审
| 申请号: | 202111557696.4 | 申请日: | 2021-12-17 |
| 公开(公告)号: | CN114239727A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 朱彬;陈祥光;何勇 | 申请(专利权)人: | 湖南科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 411201*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 局部 密度 框架 距离 快速 方法 | ||
1.一种基于局部密度和簇间框架距离的快速聚类方法,其特征在于步骤如下:
S1、输入数据集X以及聚类的目标簇数k,利用快速近邻搜索算法得到各样本的近邻样本集,并据此计算各样本的局部密度;
S2、计算各样本到与其距离最近且局部密度更大的样本之间的距离,并据此构建决策图;
S3、基于决策图选取排名最靠前的若干样本作为初始子簇中心,并将所有样本按照一种特定规则划分为以各初始子簇中心为中心的若干子簇;若子簇的数量等于聚类的目标簇数k,则聚类结束,输出子簇作为最终聚类的簇类;否则,进入步骤S4;
S4、对每个子簇从该子簇中选取若干个样本用于表示其框架;
S5、反复合并簇间框架距离最近的两个子簇,直到簇的数量等于目标值。
2.如上述权利要求1所述的方法,其特征在于,步骤S1的具体方法为:
S1.1、输入数据集X={x1,x2,...,xn},其中xi是一个d维向量代表数据集X中的一条数据;输入聚类目标簇数k;
S1.2、对每个样本xi,利用快速近邻搜索算法得到其近邻样本集合N∈(i);
S1.3、根据每个样本xi的近邻样本集合N∈(i)计算该样本的局部密度ρi。
3.如上述权利要求1所述的方法,其特征在于,步骤S2的具体方法为:
S2.1、对每个样本xi计算该样本到与其距离最近且局部密度更高的样本xj之间的距离δi;同时,记xj为xi的“master”,即M(i)=j;
S2.2、对每个样本xi,令γi=ρi*δi;
S2.3、构建决策图;对每个样本xi,其在决策图中的轴坐标为(γrank(i),γi),其中γrank(i)为样本xi的γ值在所有γ值中的大小排序。
4.如上述权利要求1所述的方法,其特征在于,步骤S3的具体方法为:
S3.1、连接决策图中γ值最大的样本和最小的样本形成直线,计算决策图中每个样本到该直线的距离,距离最远的点称作“拐点”;
S3.2、将γ值大于等于拐点的样本选为初始子簇中心点,若初始子簇中心点的数量小于聚类目标簇数k,则选取k个γ值最大的样本作为初始子簇中心点;
S3.3、除初始子簇中心点外,将每个样本划分到该样本的master所属的簇类中,得到m个子簇。若m>k,则进入步骤S4;否则聚类结束,输出k子簇作为最终聚类结果(步骤S3.2使得m必定大于或等于k)。
5.如上述权利要求1所述的方法,其特征在于,步骤S4的具体方法为:
S4.1、对于每个子簇Ci,在该子簇中选取若干个样本作为该簇的框架点,其框架点的集合记为Fi={f1,f2,...,fω},其中fj是属于子簇Ci的框架点,ω是由用户定义的参数;
S4.2、对每个子簇的所有框架点,将其向对应子簇的均值点进行一定比例的缩放。
6.如上述权利要求1所述的方法,其特征在于,步骤S5中,两个子簇Ci与Cj之间的距离定义为:其中d(x,y)是x和y之间的距离,x和y为分别为子簇Ci和Cj的框架点。
7.如上述权利要求6所述的方法,其特征在于,步骤S5中,两个距离最近子簇Ci与Cj的合并方法为:Ck=Ci∪Cj={...,xl,...},其中xl∈Ci或xl∈Ck,同时新合并的簇Ck的框架点集合Fk=Fi∪Fj={...,fl,...},其中fl∈Fi或fl∈Fj。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南科技大学,未经湖南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111557696.4/1.html,转载请声明来源钻瓜专利网。





