[发明专利]基于中心索引的海量高维音频数据的聚类方法有效
申请号: | 201310075014.5 | 申请日: | 2013-03-08 |
公开(公告)号: | CN103150372B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 李秋虹;赵航涛 | 申请(专利权)人: | 江苏唯实科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 无锡市大为专利商标事务所(普通合伙)32104 | 代理人: | 曹祖良 |
地址: | 214028 江苏省无锡*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中心 索引 海量 音频 数据 方法 | ||
技术领域
本发明涉及一种聚类方法,尤其是一种基于中心索引的海量高维数据的聚类方法,属于数据聚类的技术领域。
背景技术
聚类是一种重要的数据分析手段,它按照一定的要求和规律对数据集中的数据对象进行区分和分类,进而把一个没有类别标记的数据集按照某种准则划分成若干个子集(类),并使相似的数据对象尽可能地归为一类、不相似的数据对象尽可能地划分到不同的类中。
与此同时,随着信息技术的迅猛发展,聚类所面临的不仅是数据量越来越大的问题,更重要的还是数据的高维度问题。换句话说,由于数据来源的丰富多样,图文声像甚至视频都逐渐成为聚类处理的目标对象,这些特殊对象的属性信息往往要从数十个甚至数百个方面来表现,其每一个属性都成为数据对象的一个维,对高维数据的聚类分析,已成为众多领域研究方向之一。K-means方法不仅对低维数据的聚类非常有效,而且对高维数据的聚类也有很好的支持。近年来的研究表明,对高维数据的聚类可以归为两类,一类是基于密度的聚类方法,另一类就是基于k-means的聚类方法。
k-means聚类方法将n个数据对象划分为k个聚类,以便使得所获得的聚类满足:同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
为了更好的刻画数据,对于海量数据,很小的k值意义不大。对于海量数据,k通常具有较大的值,例如超出数万都很普遍。这样对于海量高维数据,k-means的计算代价非常昂贵。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于中心索引的海量高维数据的聚类方法,其能有效缩短海量数据的聚类时间,降低海量数据的聚类代价。
按照本发明提供的技术方案,所述基于中心索引的海量高维数据的聚类方法,所述海量高维数据的聚类方法包括如下步骤:
a、在包含海量高维数据的数据集中选取k个中心点,并按照距离将所选取的k个中心点聚类分成m个分区,m个分区中每个分区包含若干聚类点;
b、获取上述m个分区中每个分区对应的中心点和半径,并将每个分区对应的中心点作为索引输入;
c、将上述数据集中的数据点与上述m个分区中每个分区对应的中心点进行距离比较,得到所需的选定分区及选定分区中心点;其中,所述选定分区中心点为选定分区的中心点,所述选定分区中心点与所述数据集中的数据点的距离最近;
d、将数据集中的数据点与选定分区内的聚类点进行距离比较,以对所述数据集中的数据点进行分析聚类。
所述步骤d中,选定分区的半径为r1,未选定分区的半径为r2;数据集中的数据点到选定分区的距离为d1,到未选定分区的距离为d2;若d2≥d1+ r1+ r2,则对于未选定分区中任意一点,到数据集中的数据点的距离要大于选定分区中任意一聚类点到数据集中的数据点的距离时,数据集中的数据点仅与选定分区内的聚类点进行距离比较,以进行所需的分析聚类。
所述步骤a中,聚类成分区的数量m远远小于中心点的个数k。
本发明的优点:增加了对选取k个中心点的聚类过程,聚类的结果作为索引的依据,通过裁减中心点减少了比较需要的计算代价,能有效缩短海量数据的聚类时间,降低海量数据的聚类代价。
附图说明
图1为本发明将k个中心点聚类成m个分区后的示意图。
图2为本发明中获取m个分区的中心点后的示意图。
图3为本发明计算并比较数据点与分区的中心点的距离的示意图。
图4为本发明得到选定分区,并将数据点与选定分区的聚类点进行距离比较后的示意图。
图5为本发明的一种仿真比较示意图。
图6为本发明的另一种仿真比较示意图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
为了能够降低k-menns聚类方法对海量高维数据的聚类开销,本发明的聚类方法包括如下步骤,具体地,包括:
a、在包含海量高维数据的数据集中选取k个中心点,并按照距离将所选取的k个中心点聚类分成m个分区,m个分区中每个分区包含若干聚类点;
本发明实施例中,k个中心点为在海量高维数据的数据集中随机选取,依照k-means的聚类方法,根据距离将k个中心点聚类分成m个分区,其中,聚类得到分区的数量m远远小于选取中心点的数量k;聚类得到的每个分区均包含若干个聚类点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏唯实科技有限公司,未经江苏唯实科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310075014.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:预加载浏览网页的服务器和方法
- 下一篇:银行后台系统模糊搜索的方法及设备