[发明专利]一种K近邻相似度优化的密度峰聚类方法在审
申请号: | 201710607140.9 | 申请日: | 2017-07-24 |
公开(公告)号: | CN107392249A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 葛洪伟;朱庆峰;江明;李莉 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 近邻 相似 优化 密度 峰聚类 方法 | ||
技术领域
本发明属于数据挖掘和智能信息处理领域,涉及流形数据聚类处理;具体地说就是一种K近邻相似度优化的密度峰聚类方法,可用于数据挖掘、模式识别和机器学习等领域。
背景技术
聚类是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类的目的简单来说就是对相似的数据进行分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。聚类在数据挖掘、模式识别、机器学习、信息检索等领域已经得到了广泛研究和应用。聚类是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。从统计学的角度看,聚类是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、动态聚类法、有序样品聚类及模糊聚类等。从机器学习的角度看,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。聚类与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习;从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类、定性归纳算法等)及应用(如图像检索、数据挖掘等)的预处理步骤,具有重要的意义。
2014,Alex Rodriguez等人在《Science》上提出了基于密度的密度峰聚类(Density Peaks Clustering,DPC)算法。DPC算法不需要事先指定族类数目,而是通过决策图,找出聚类中心,再将其他的点进行分配,得到聚类结果。密度峰聚类算法虽然简单高效,但是容易发生点错误分配,造成误差传播,最后得到错误的结果。尤其对于一些复杂的流形聚类,这种缺陷尤为突出。
发明内容
针对上述的问题,本发明提出了K近邻相似度优化的密度峰聚类(Density Peaks clustering Optimized by K Nearest Neighbor’s Similarity,DPCKS)方法,可以解决原密度峰聚类算法无法正确处理流形数据聚类的问题,提高了算法的适用范围,可以满足实际工程应用的需求。
实现本发明的关键技术是:对于每一个样本点,首先通过函数计算它与其他点的相似度,找出其K近邻。然后通过它的K近邻判断其指向点是否正确,对于指向错误的样本点,重新寻找它的指向点。最后,将剩余的点分配给密度比它大的最近点所在族类。
为实现上述目标,具体实现步骤如下:
(1)计算所有点间距离,算出截断距离dc值,利用高斯函数:计算每个数据点的密度,然后利用函数:计算每个点到密度比它大的最近点的距离。其中,dij表示点i和点j的距离。对于全局密度最大的点,令δi=maxjdij。
(2)根据每个点的ρ和δ值画出决策图,找出聚类中心。
(3)根据函数:计算点间相似度,找到每个点的K近邻点。其中X=(x1,…,xd)和Y=(y1,…,yd)是d维空间中的两个向量,mi表示第i维上X和Y的平均值的绝对值。
(4)所有的点按照密度从大到小排序,新建空数组Aq,Bq,并把聚类中心依次放入数组Aq。
(5)按照密度从大到小的顺序,依次取点i,判断点i是否已经分配。如果已经分配,取下一个;如果未分配,则进行下一步。
(6)判断点i是否是密度峰值点。如果不是,取下一个;如果是,判断点i与指向点j是否连通。如果连通,把点i放入数组Aq末尾;如果不连通,则把点i放入数组Bq末尾。
(7)判断数组Bq是否为空,如果为空,则将剩余的点分配,结束;如果不为空,则分别从数组Aq中找出一个点j,从数组Bq中找出一个点h,满足点j与点h距离最近。
(8)判断点h与点j是否连通,如果连通,则点h的指向点为点j,把点h归入点j所在族类,并将点h加入数组Aq末尾,并从数组Bq中删除点h;如果不连通,寻找下一对最近点,判断。重复,直到数组Bq为空或者数组Bq中剩余点都不与数组Aq中的点连通。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710607140.9/2.html,转载请声明来源钻瓜专利网。