[发明专利]一种无参的复杂流形聚类方法在审
申请号: | 201910816688.3 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110516753A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 黄金龙;程东东;张素兰;邢昌元 | 申请(专利权)人: | 长江师范学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 50212 重庆博凯知识产权代理有限公司 | 代理人: | 胡逸然<国际申请>=<国际公布>=<进入 |
地址: | 408100 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类结果 目标数据 间隔性 紧密性 流形 最短路径距离 聚类集合 聚类 聚类算法 评价标准 有效评价 预设条件 综合考虑 数据集 噪声点 预设 | ||
本发明公开了一种无参的复杂流形聚类方法,包括:使用预设聚类算法求得目标数据集的待确定聚类集合;确定目标数据集中所有的自然核心点;从目标数据集中提取初始聚类结果;计算每两个自然核心点之间的簇距离;计算每两个自然核心点之间的最短路径距离;计算每个待确定类的紧密性及间隔性;基于每个待确定类的紧密性及间隔性计算评价值,若评价值满足预设条件,则将待确定聚类集合作为最终的聚类结果。本发明提出新的簇距离概念,并根据簇距离提出了最短路径距离概念。通过综合考虑类的紧密性和间隔性,采用自然评价标准,实现了对含有噪声点和复杂流形数据集的聚类结果进行有效评价,从而形成了一种新的无参的复杂流形聚类方法。
技术领域
本发明涉及数据挖掘领域,具体涉及一种无参的复杂流形聚类方法。
背景技术
聚类是一种无监督的机器学习方法,其能挖掘出数据集中数据对象之间的关联关系,进而获得有价值的信息和知识。近年来聚类已成为数据挖掘中的热点课题之一。然而对于同一个数据集,采用不同的聚类分析方法,有可能得到不同的聚类结果。即使同一个聚类分析算法,采用不同参数也有可能得到不同的聚类结果。那么在这些聚类结果中,哪一种聚类结果最符合目标数据集的分类情况,便成为了聚类分析面临的一个难题之一。如若用户任选一种结果作为最终聚类结果,有可能导致从数据中挖掘出的信息价值低或无效。这时就需要聚类评价标准对聚类分析结果进行有效性评价,将聚类评价效果最好的聚类结果作为最终的聚类结果,从而挖掘出有用的信息。
目前聚类评价分为两种:外部评价标准和内部评价标准。著名的外部评价标准有:①准确率,被聚类算法正确聚类的数据对象数目与整个数据集中包含的数据对象数目的比值,其值越大证明聚类结果越好;②召回率,在聚类的过程中,有可能存在有些数据对象没有被聚到任何一个类中的情况,利用召回率来表示数据及中被聚类的数据对象的比例,其值越大越好;③兰德指数(RI),RI的取值范围是[0,1],值越大意味着聚类结果与真实情况越吻合。除了以上外部评价标准外,基于兰德指数改进的调整兰德系数、互信息以及标准互信息也是非常具有代表性的外部评价标准。然而,利用外部评价标准对聚类进行有效性评价必须有一个前提:数据集中每个对象的类标签是已知的。所以外部评价标准的主要目的是分析某个聚类算法的聚类结果与数据集的真实分类的符合程度,从而衡量该聚类分析算法是否适用于该类数据。显然,外部评价标准无法对数据对象类标签未知的数据集进行聚类有效性评价。
内部评价标准是根据数据集内部数据对象之间的关联关系(相似度或不相似度等)对聚类结果进行有效性评价,因此内部评价标准能对数据对象类标签未知的数据集进行聚类有效性分析。内部评价标准中最基本的两个概念就是类内紧密性(CP)和类间分隔性(SP)。类内紧密性描述的是数据集中每个类内部数据对象之间的相似度,相似度越高,类内紧密性的值越大,说明聚类结果越合理。类间分隔性描述的是数据集中属于不同类的数据对象之间的不相似度,不相似度越高,类间分隔性的值越大,说明聚类结果越合理。但是若单独考虑CP和SP,聚类结果有可能出现局部最优的情况,例如一个类被分为的两个小类,那么类内紧密性的值很大,但是类间分割性的值却很小。类内紧密性的值越大,同时类间分隔性的值也越大,这样才能说明一个聚类结果是有效的。因此,为了解决局部最优问题,一些综合了CP和SP的内部评价标准被提出,例如Davies-Bouldin(DB)指标、Calinski-Harabasz(CH)指标、Silhouette指标等,但这些指标仅适用于球形数据集。Minimum DescriptionLength(MDL)指标适用于球形和凹形数据集,但是却不适用于流形数据集。最近也有部分适用于流形数据的聚类评价指标被提出,例如CSP指标、Liu等人提出的CVNN指标等。然而,现有的内部评价标准还是存在以下问题:①对复杂流形数据评价效果不理想;②需要人工设置邻域参数且对参数敏感,即相同的聚类结果使用不同的参数有可能导致得到的聚类有效性评价不一样。
因此,本发明公开了一种无参的复杂流形聚类方法,用于解决现有技术中聚类过程中的评价过程不适用于复杂流形数据集且对参数敏感的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长江师范学院,未经长江师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910816688.3/2.html,转载请声明来源钻瓜专利网。