[发明专利]一种基于最大隶属度的模糊层次聚类方法在审
申请号: | 201810429507.7 | 申请日: | 2018-05-08 |
公开(公告)号: | CN108717551A | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 郭树理;韩丽娜;桂心哲;张祎彤;陈启明;弗朗斯;刘宏斌;范利 | 申请(专利权)人: | 北京理工大学;中国人民解放军总医院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 最大隶属度 层次聚类 隶属度 二叉树 数据挖掘技术 模糊隶属度 模糊 核心思想 基准方式 聚类过程 聚类结果 数据样本 子图集合 初始点 鲁棒性 聚合 直观 关联 分类 | ||
一种基于最大隶属度的模糊层次聚类方法,属于数据挖掘技术领域。本方法将隶属度作为聚类的基准方式,采用相邻分类的形式,并利用提前设定隶属度阈值λ的方式,防止类别聚合程度过深。核心思想是:首先将数据样本各自归为一类;然后利用模糊隶属度进行类别关联计算,依据最大隶属度聚类的基本准则,构造二叉树的形式建立层次聚类结构;最后通过聚类二叉树子图集合判别最终聚类结果。本发明整个聚类过程可以无需设置聚类初始点,只需根据隶属度阈值即可自动调节聚类数目,使聚类的条件更加直观,具有较好的鲁棒性。
技术领域
本发明涉及一种基于最大隶属度的模糊层次聚类方法,属于数据挖掘技术领域。
背景技术
数据挖掘是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。聚类分析是数据挖掘中的一个重要研究领域,聚类算法是数据挖掘领域中用于分析数据的一种重要算法,该算法用于将由多个数据组成的集合按照数据的不同类别进行分类。聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。聚类的目的是使得属于同类别的对象之间的差别尽可能的小,而不同类别上的对象的差别尽可能的大。因此,聚类的意义就在于将观察到的内容组织成类分层结构,把类似的事物组织在一起。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的关系。
聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。比较有代表性的聚类技术是基于几何距离的聚类方法,如欧氏距离、曼哈坦距离、明考斯基距离等。聚类分析广泛应用于商业、生物、地理、网络服务等多种领域。其中,K均值聚类、模糊聚类和层次聚类是较常用的三种聚类算法。
基于K-Means的聚类算法需要事先确定聚类类别数K,K意味着最终聚类的结果类别数。首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,知道质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,K-Means算法的收敛速度比较慢。
FCM算法首先是由E.Ruspini提出来的,后来J.C.Dunn与J.C.Bezdek将 E.Ruspini算法从硬聚类算法推广成模糊聚类算法。FCM算法是基于对目标函数的优化基础上的一种数据聚类方法。聚类结果是每一个数据点对聚类中心的隶属程度,该隶属程度用一个数值来表示。FCM算法是一种无监督的模糊聚类方法,在算法实现过程中不需要人为的干预。这种算法的不足之处:首先,算法中需要设定一些参数,若参数的初始化选取的不合适,可能影响聚类结果的正确性;其次,当数据样本集合较大并且特征数目较多时,算法的实时性不太好。
层次聚类的算法是通过计算两个类之间的距离,即类间距离,从而将类间距离小于一定值的两个类合并为一个新类。由于每个类可能包含不止一个数据对象,因此,计算类间距离时,需将一个类中的所有数据对象与另一个类的所有数据对象进行两两计算,对所有的计算结果进行统计,得到平均值或最小值,将其作为类间距离,从而根据类间距离实现后续的聚类。
在实现本申请的过程中,发明人发现相关聚类技术至少存在以下问题:
1不管是k均值聚类方法,还是模糊聚类方法,在进行聚类之前都需要用户事先确定要得到的聚类的数目。然而在现实数据中,聚类的数目是未知的,最好能存在一种根据相应准则自动确定聚类数目的方法。
2部分聚类方法需要随机选择初始聚类点,每次聚类会根据初始点的不同而有不同的聚类效果,导致聚类结果不稳定,随机性较大。
3由于现实数据通常是很复杂的,噪声很大。这使得在聚类过程中,每个类中可能包含不属于该类的数据对象,即噪声,使用该数据对象进行类间距离的计算并形成新类之后,可能会引入更多的噪声,导致聚类结果较差,不利于后续的数据分析。因此如何有效的消除或减弱噪声的影响,提高处理现实数据的能力是非常重要的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学;中国人民解放军总医院,未经北京理工大学;中国人民解放军总医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810429507.7/2.html,转载请声明来源钻瓜专利网。