[发明专利]基于K近邻和多类合并密度峰值聚类方法、图像分割系统在审
申请号: | 201810986243.5 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109409400A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 高淑萍;何迪;薛小娜;彭弘铭;赵怡;吴会会;张剑湖;王军宁 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 类合并 图像分割系统 分配策略 聚类中心 迭代 测试数据集 合并操作 密度计算 评价指标 数值实验 图形技术 样本分布 真实数据 峰值点 数据点 度量 构建 归类 偏好 印刷 书写 阅读 合并 分裂 分配 | ||
本发明属于用于阅读或识别印刷或书写字符或者用于识别图形技术领域,公开了一种基于K近邻和多类合并密度峰值聚类方法、图像分割系统,利用密度计算方式描述样本分布,采用新的评价指标获取聚类中心;设计迭代分配策略将剩余点准确归类;给出局部类合并方法防止将包含多个密度峰值点的类分裂。本发明通过密度度量方法来描述各数据点的分布情况,构建更符合人们想法的基于密度和距离的带偏好指标来评价聚类中心,并利用迭代分配策略将剩余点分配以提高聚类精度;在完成局部聚类后,多类合并策略来完成局部类合并操作。数值实验结果表明,在22个测试数据集及真实数据上均有良好的适用性。
技术领域
本发明属于用于阅读或识别印刷或书写字符或者用于识别图形技术领域,尤其涉及一种基于K近邻和多类合并密度峰值聚类方法、图像分割系统。
背景技术
目前,业内常用的现有技术是这样的:聚类可从无序数据中挖掘出潜在的有价值信息,其在图像分割、文档恢复及模式分类等诸多领域中有着广泛的应用前景。目前已有多种聚类方法,包括分割聚类、层次聚类、密度聚类及基于网格的聚类等。K-means是最简单且最受欢迎的分割聚类算法,具有操作简单、速度快等优点,但其非常依赖聚类数目及初始类中心;基于密度的DBSCAN算法也深受人们喜爱,其不仅可以识别出具有不规则形状的类,而且具有较强的抗噪能力,但其易受邻域半径ε和阈值Minpts这两个预设参数的影响,微小的变化都会导致不同的结果。仿射传播聚类(Affinity Propagation,AP)算法,该算法简单有效,不需要预先指定聚类数目,但其所得聚类数目深受参数“preference”的影响。为了提高聚类质量及聚类效率,在Science期刊上发表了一种快速搜索与发现密度峰值的聚类算法DPC,其具有聚类速度快、可以有效识别类中心和噪声等优点;尽管该算法现已被运用于图像、工业、医学、社区发现等领域,但其仍存在以下局限:①对截断距离参数dc很敏感,且未给出选取该参数的有效方法;②对于大小不同数据集,采用的密度计算方式不同,这无形中降低了算法的灵活性;③对剩余点的分配策略易产生误差传播现象;④当一个类中存在多个密度峰值时,DPC会将该类聚成多类。因此,有不少国内外研究者对DPC进行了优化改进;将DPC和FCM算法结合提出了FDP-FCM算法,解决了FCM算法中存在的对初始聚类中心敏感、聚类速度慢以及聚类数目难以确定的问题。将DPC和Chameleon算法相结合提出了E_CFSFDP算法,解决了DPC无法处理一个类中包含多个密度峰值点的问题。将密度比的概念引入DPC提出了R-CFSFDP算法,弥补了DPC难以处理密度变化比较大的数据的缺陷。利用信息熵理论提出了一种从原始数据集中自动提取dc的方法,解决了DPC中dc参数难以确定的问题。Fuzzy-CFSFDP算法,通过引入模糊规则来自动获取聚类中心,提高了聚类中心点选取和聚类结果的准确率。基于K近邻(K-nearest neighbors,KNN)思想分别提出了DPC-KNN和FKNN-DPC算法,不仅解决了DPC中的密度计算方式不统一问题,同时提高了聚类精度。ADPC-KNN算法,其使用KNN思想来计算每个点的全局参数dc和局部密度,给出了一种自动选择初始聚类中心的新方法,提高了聚类质量。尽管这些方法获得的聚类结果比DPC的更理想,但其同时也带来了新问题,例如耗时增加、模型复杂、在真实数据集上性能不佳等。
综上所述,现有技术存在的问题是:密度峰值聚类算法在处理结构复杂、维数较高以及同类中存在多个密度峰值的数据集时,由于该方法采用的局部密度度量方式不统一,而且分配剩余点时易产生误差传播以及将包含多密度峰值的类聚成多类,以致该算法获得的聚类质量低,难以有效应用于实际问题中。
解决上述技术问题的难度和意义:如何设计统一的局部密度度量方式、简单高效的剩余点分配策略以及对包含多密度峰值点的类进行合并的策略,是提升密度峰值聚类方法的性能并将其有效应用于解决实际问题的关键和难点所在。因此通过对该算法进行有效完善来提升密度峰值方法的聚类质量和执行效率,并将其应用于实际问题中是具有显著意义的。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810986243.5/2.html,转载请声明来源钻瓜专利网。