[发明专利]基于分子内聚力理论的数据聚类方法无效

申请号：	201110032779.1	申请日：	2011-01-30
公开（公告）号：	CN102087667A	公开（公告）日：	2011-06-08
发明（设计）人：	余春艳;张栋;王秀;姜云飞;李建明	申请（专利权）人：	福州大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于分子内聚力理论数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据聚类技术领域，特别是一种基于分子内聚力理论的数据聚类方法。

背景技术

聚类是以数学公式为基础的在不同对象之间的相似度的度量。聚类用来获得彼此相似而与属于其他聚类的对象不相似的对象的一种集合。例如，在数据挖掘领域中，用聚类法对数据中的模型和关系进行辨识，提取隐含其中有用的信息和知识。关于聚类算法有很多，如K-MEANS、CURE、DBSCAN、STING、EM、CLIQUE等。

K-means算法是目前为止应用最为广泛的一种聚类算法，它用于解决某些公知的聚类问题。K-means算法被用于产生根据相似性的距离度量的聚类。K-means聚类算法遵循过分简单的方法，通过事先固定的聚类的给定数目，如k个聚类，把固定的数据集进行分类。也就是说，该算法以选择的k个对象为初始聚类的中心，初始的代表为一个簇，该过程继续进行，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。K-means的一个问题是，k的某个初始值只是根据估算值被赋值的。这样的k值经常是错误的，对最终结果产生负面影响。即使重新初始化k值运行算法，算法可能会以更接近从数据所预期的聚类的数目的k值运行。但是这种重新运行K-means算法的方法不仅费时、低效、麻烦，且仍不能消除或明显减小k值的负面影响。

发明内容

本发明的目的在于提供一种基于分子内聚力理论的数据聚类方法，该方法不用事先估计类别数目，提高了聚类结果的准确性。

为实现上述目的，本发明的技术方案是：一种基于分子内聚力理论的数据聚类方法，其特征在于：对于高维空间上具有N个数据点的数据集，设每个数据点为一个分子，设多个数据点形成的一个聚类为一个分子团，按如下步骤进行分子内聚力聚类：

步骤（1）：利用分子势能公式分别计算两两数据点之间的内聚力能量值，并保存；

步骤（2）：各数据点根据步骤（1）计算得到的内聚力能量值并行寻找能使合并总能量降低且降到最低的数据点，与其合并为一个聚类，根据聚类完成的先后顺序，当一个数据点A被另一数据点B合并为一个聚类后，所述数据点A不再主动寻找与其聚类的数据点，也不再以单个数据点形式作为其他数据点的聚类选择对象；通过该步骤得到多个聚类和未找到使合并总能量降低数据点而无法聚类的数据点；

步骤（3）：步骤（2）得到的各数据点和聚类并行寻找能使合并总能量降低且降到最低的数据点或聚类，与其合并为一个新的聚类，根据聚类完成的先后顺序，当一个数据点或聚类C被另一数据点或聚类D合并为一个新的聚类后，所述数据点或聚类C不再主动寻找与其聚类的数据点或聚类，也不再以原形式作为其他数据点或聚类的聚类选择对象；

步骤（4）：重复步骤（3），直至所有数据点或聚类都无法使其他数据点或聚类能量降低；

步骤（5）：所有数据点聚类完成，并得到数据点最终的类簇及其类别数目。

本发明的有益效果是将待聚类数据点与分子进行类比，将分子内聚力理论应用于数据聚类过程，在聚类过程中不用事先估计类别数目，从而提高了聚类结果的准确性。

附图说明

图1是本发明实施例的工作流程图。

具体实施方式

本发明基于分子内聚力理论的数据聚类方法，对于高维空间上具有N个数据点的数据集，设每个数据点为一个分子，设多个数据点形成的一个聚类为一个分子团，按如下步骤进行分子内聚力聚类：

步骤（1）：利用分子势能公式分别计算两两数据点之间的内聚力能量值，并保存至能量矩阵中；

步骤（4）：重复步骤（3），直至所有数据点或聚类都无法使其他数据点或聚类能量降低；

步骤（5）：所有数据点聚类完成，并得到数据点最终的类簇及其类别数目。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载