[发明专利]一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法在审

专利信息
申请号: 201911017820.0 申请日: 2019-10-24
公开(公告)号: CN110929758A 公开(公告)日: 2020-03-27
发明(设计)人: 徐立中;赵嘉;黄晶;郝振纯;陈哲;许叶军 申请(专利权)人: 河海大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210024 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 复杂 数据 快速 搜索 寻找 密度 峰值 算法
【说明书】:

发明公开了一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法,基于累积近邻度的局部密度定义方式通过样本与其k近邻样本的距离定义该样本的离心率,再通过该样本与其k近邻样本的离心率比较确定该样本局部密度,该局部密度使样本的局部信息被充分利用;基于图形度连接的微簇合并分配策略首先使用密度峰值聚类分配策略将样本分为多个微簇,再计算样本间的加权邻近度,以此确定微簇间的相似程度,将相似程度最高的微簇依次合并,形成最终聚类。实验结果表明本发明能在多尺度、交叉缠绕和流型的复杂数据集中正确找到密度峰值点,并能对其余样本进行正确的分配,聚类精度得到较高提升。

技术领域

本发明涉及大数据分析领域的聚类算法,尤其涉及一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法。

背景技术

密度峰值聚类算法(Clustering by fast search and find of density peaks,DPC)由Alex Rodriguez和Alessandro Laio于2014年提出,并将论文发表在Science上。因其算法原理简单、运行高效、无需迭代计算目标函数即可快速找到密度峰值点(聚类中心)、适用于大规模数据集的聚类分析等特点,提出后就受到学者的关注,并在在图像处理、社区网络发现、基因序列重组、旅行社问题等得到了广泛应用,但DPC算法在处理复杂数据集时难以正确寻找密度峰值点,并且在分配时易出现分配连带错误的缺点,限制了DPC的实际应用。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法(A Fast Clustering Algorithm for Searching andFinding Density Peaks for Complex Data,FCA-SFDPCD),以解决在处理多尺度、交叉缠绕和流型的复杂数据集时无法找到正确密度峰值点及分配方式容易出现错误连带问题等不足。

技术方案:一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法,包括如下内容:

局部密度定义:

定义1累积近邻度πk:用于测量数据点i与其k近邻点的相似程度;

其中,knn(i)为数据点i的k个近邻点的集合,dij为数据点i与数据点j之间的欧式距离;所述k的取值为1-100。

定义2离心率ε:用于表示数据点i与其k近邻点的关联程度;

该值越大,说明数据点i与其k近邻点的关系越不紧密,为离群点的可能性越大;

定义3局部密度ρ:

分配策略:

定义4数据点的加权邻近度ω:

其中,ωij表示数据点i到数据点j的加权邻近度,N为样本个数。

定义5数据点与微簇的相互邻近度Ai→c,用于表示数据点属于微簇的权重:

所述数据点与微簇的相互邻近度越大,说明该微簇对该数据点的吸引度越大,该数据点越大概率属于该微簇;所述为微簇到数据点的邻近度;所述为数据点到微簇的邻近度;

定义6微簇与微簇的相互邻近度用于表示两微簇属于同一个簇的权重:

所述为微簇i到微簇j的邻近度;为微簇i到微簇j的邻近度。

算法具体步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911017820.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top