[发明专利]基于中心索引的海量高维音频数据的聚类方法有效

申请号：	201310075014.5	申请日：	2013-03-08
公开（公告）号：	CN103150372B	公开（公告）日：	2017-01-04
发明（设计）人：	李秋虹;赵航涛	申请（专利权）人：	江苏唯实科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	无锡市大为专利商标事务所(普通合伙)32104	代理人：	曹祖良
地址：	214028 江苏省无锡***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于中心索引海量音频数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种聚类方法，尤其是一种基于中心索引的海量高维数据的聚类方法，属于数据聚类的技术领域。

背景技术

聚类是一种重要的数据分析手段，它按照一定的要求和规律对数据集中的数据对象进行区分和分类，进而把一个没有类别标记的数据集按照某种准则划分成若干个子集（类），并使相似的数据对象尽可能地归为一类、不相似的数据对象尽可能地划分到不同的类中。

与此同时，随着信息技术的迅猛发展，聚类所面临的不仅是数据量越来越大的问题，更重要的还是数据的高维度问题。换句话说，由于数据来源的丰富多样，图文声像甚至视频都逐渐成为聚类处理的目标对象，这些特殊对象的属性信息往往要从数十个甚至数百个方面来表现，其每一个属性都成为数据对象的一个维，对高维数据的聚类分析，已成为众多领域研究方向之一。K-means方法不仅对低维数据的聚类非常有效，而且对高维数据的聚类也有很好的支持。近年来的研究表明，对高维数据的聚类可以归为两类，一类是基于密度的聚类方法，另一类就是基于k-means的聚类方法。

k-means聚类方法将n个数据对象划分为k个聚类，以便使得所获得的聚类满足：同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

为了更好的刻画数据，对于海量数据，很小的k值意义不大。对于海量数据，k通常具有较大的值，例如超出数万都很普遍。这样对于海量高维数据，k-means的计算代价非常昂贵。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种基于中心索引的海量高维数据的聚类方法，其能有效缩短海量数据的聚类时间，降低海量数据的聚类代价。

按照本发明提供的技术方案，所述基于中心索引的海量高维数据的聚类方法，所述海量高维数据的聚类方法包括如下步骤：

a、在包含海量高维数据的数据集中选取k个中心点，并按照距离将所选取的k个中心点聚类分成m个分区，m个分区中每个分区包含若干聚类点；

b、获取上述m个分区中每个分区对应的中心点和半径，并将每个分区对应的中心点作为索引输入；

c、将上述数据集中的数据点与上述m个分区中每个分区对应的中心点进行距离比较，得到所需的选定分区及选定分区中心点；其中，所述选定分区中心点为选定分区的中心点，所述选定分区中心点与所述数据集中的数据点的距离最近；

d、将数据集中的数据点与选定分区内的聚类点进行距离比较，以对所述数据集中的数据点进行分析聚类。

所述步骤d中，选定分区的半径为r1，未选定分区的半径为r2；数据集中的数据点到选定分区的距离为d1，到未选定分区的距离为d2；若d2≥d1+ r1+ r2，则对于未选定分区中任意一点，到数据集中的数据点的距离要大于选定分区中任意一聚类点到数据集中的数据点的距离时，数据集中的数据点仅与选定分区内的聚类点进行距离比较，以进行所需的分析聚类。

所述步骤a中，聚类成分区的数量m远远小于中心点的个数k。

本发明的优点：增加了对选取k个中心点的聚类过程，聚类的结果作为索引的依据，通过裁减中心点减少了比较需要的计算代价，能有效缩短海量数据的聚类时间，降低海量数据的聚类代价。

附图说明

图1为本发明将k个中心点聚类成m个分区后的示意图。

图2为本发明中获取m个分区的中心点后的示意图。

图3为本发明计算并比较数据点与分区的中心点的距离的示意图。

图4为本发明得到选定分区，并将数据点与选定分区的聚类点进行距离比较后的示意图。

图5为本发明的一种仿真比较示意图。

图6为本发明的另一种仿真比较示意图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

为了能够降低k-menns聚类方法对海量高维数据的聚类开销，本发明的聚类方法包括如下步骤，具体地，包括：