[发明专利]一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法在审
申请号: | 201911017820.0 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110929758A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 徐立中;赵嘉;黄晶;郝振纯;陈哲;许叶军 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 复杂 数据 快速 搜索 寻找 密度 峰值 算法 | ||
本发明公开了一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法,基于累积近邻度的局部密度定义方式通过样本与其k近邻样本的距离定义该样本的离心率,再通过该样本与其k近邻样本的离心率比较确定该样本局部密度,该局部密度使样本的局部信息被充分利用;基于图形度连接的微簇合并分配策略首先使用密度峰值聚类分配策略将样本分为多个微簇,再计算样本间的加权邻近度,以此确定微簇间的相似程度,将相似程度最高的微簇依次合并,形成最终聚类。实验结果表明本发明能在多尺度、交叉缠绕和流型的复杂数据集中正确找到密度峰值点,并能对其余样本进行正确的分配,聚类精度得到较高提升。
技术领域
本发明涉及大数据分析领域的聚类算法,尤其涉及一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法。
背景技术
密度峰值聚类算法(Clustering by fast search and find of density peaks,DPC)由Alex Rodriguez和Alessandro Laio于2014年提出,并将论文发表在Science上。因其算法原理简单、运行高效、无需迭代计算目标函数即可快速找到密度峰值点(聚类中心)、适用于大规模数据集的聚类分析等特点,提出后就受到学者的关注,并在在图像处理、社区网络发现、基因序列重组、旅行社问题等得到了广泛应用,但DPC算法在处理复杂数据集时难以正确寻找密度峰值点,并且在分配时易出现分配连带错误的缺点,限制了DPC的实际应用。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法(A Fast Clustering Algorithm for Searching andFinding Density Peaks for Complex Data,FCA-SFDPCD),以解决在处理多尺度、交叉缠绕和流型的复杂数据集时无法找到正确密度峰值点及分配方式容易出现错误连带问题等不足。
技术方案:一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法,包括如下内容:
局部密度定义:
定义1累积近邻度πk:用于测量数据点i与其k近邻点的相似程度;
其中,knn(i)为数据点i的k个近邻点的集合,dij为数据点i与数据点j之间的欧式距离;所述k的取值为1-100。
定义2离心率ε:用于表示数据点i与其k近邻点的关联程度;
该值越大,说明数据点i与其k近邻点的关系越不紧密,为离群点的可能性越大;
定义3局部密度ρ:
分配策略:
定义4数据点的加权邻近度ω:
其中,ωij表示数据点i到数据点j的加权邻近度,N为样本个数。
定义5数据点与微簇的相互邻近度Ai→c,用于表示数据点属于微簇的权重:
所述数据点与微簇的相互邻近度越大,说明该微簇对该数据点的吸引度越大,该数据点越大概率属于该微簇;所述为微簇到数据点的邻近度;所述为数据点到微簇的邻近度;
定义6微簇与微簇的相互邻近度用于表示两微簇属于同一个簇的权重:
所述为微簇i到微簇j的邻近度;为微簇i到微簇j的邻近度。
算法具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911017820.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分体式铝塑膜加工方法
- 下一篇:一种雪茄烟茄衣切片机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置