[发明专利]一种分布式数据流聚类方法及系统有效
申请号: | 201210365295.3 | 申请日: | 2012-09-26 |
公开(公告)号: | CN102915347B | 公开(公告)日: | 2016-10-12 |
发明(设计)人: | 吴世忠;曲武;李世贤;王君鹤;偰赓;陈巍 | 申请(专利权)人: | 中国信息安全测评中心;北京启明星辰信息安全技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 栗若木;曲鹏 |
地址: | 100085 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据流 方法 系统 | ||
技术领域
本发明涉及一种数据流聚类技术,尤其涉及一种分布式数据流聚类方法及系统。
背景技术
近年来,随着计算机技术、网络技术在工业生产、信息处理等领域的广泛应用,数据已不仅仅拘泥于文件、数据库等传统的静态形式。一种连续、无界、不定速度的流式数据已经出现在越来越多的应用领域中。这些应用领域通常是多数据源的系统,例如入侵监测系统、电子商务、电信、分布式传感器网络、气象监测、科学数据实时分析以及点对点(P2P)计算等应用场景。在这些应用中,大量的高维数据以较高的速度流向数据收集中心,实时高效地聚类这类数据是一个非常有挑战性的任务。例如,网络入侵检测系统每秒以千兆字节(GB)的速度接收网络流量和系统日志。
通过有效的数据聚类算法,可以实时地从海量数据中挖掘异常模式。随着数据流速度和规模的提高,分布式数据流聚类算法由于其可扩展性和实时特性能够满足需求。
目前主流的分布式数据流聚类的基本框架是每个站点对各自的数据流进行聚类分析,及时得到局部聚类模型。然后传送各个站点间的聚类模型,最后通过分析处理得到全局聚类结果。
高效分布式数据流聚类算法,必须解决以下几个问题:
1)数据流可聚类成的簇的个数是在不断变化的,因此不能给定算法一个固定的值作为参数。
2)算法使用单遍扫描高维数据点形成聚类,无需遍历整个数据集。随着新的数据点到来,算法必须能够维持增量更新。
3)聚类高速、大量的数据流,需要高效的分布式聚类算法来降低通讯负担、存储和计算时间。
但是,目前的数据流聚类算法基本上是点对点(P2P)环境下实现的,不能够在分布式云环境下运行,也不能较轻易地进行扩展。而且,现有算法时间复杂度较高,不能够满足数据流环境下实时的要求。
发明内容
本发明所要解决的技术问题是克服目前大多数的数据流聚类算法不能在分布式云环境下运行并不能轻易地进行扩展,运行时间效率较差的不足。
为了解决上述技术问题,本发明提供了一种分布式数据流聚类方法,包括:
对数据流进行概要处理,获得数据流的多个特征向量;
利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇,并从中选取至少一个聚类簇作为候选聚类簇;
周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理。
优选地,利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇,并从中选取至少一个聚类簇作为候选聚类簇,包括:
利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理,获得位置敏感哈希数据结构,得到位置敏感哈希映射值;
对所述位置敏感哈希映射值进行二次哈希,得到一维索引值,落入相应的哈希桶中;
使用Top-k算法从包含有至少一个特征向量的哈希桶中选取包含特征向量最多的前k个哈希桶作为所述候选聚类簇;所述k大于等于1。
优选地,利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理,包括:
采用至少一个位置敏感哈希函数族对所述多个特征向量进行所述哈希处理;
其中,每个所述位置敏感哈希函数族由从稳态分布位置敏感哈希函数族中以独立、一致随机的方式选择出的多个位置敏感哈希函数运算构成。
优选地,周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理,包括:
获得所述候选聚类簇各自的质心;
周期地计算所述新到的数据流的特征向量到所有质心的距离范数;
将所述新到的数据流的特征向量归到所述候选聚类簇的其中一个之中,或者为新到的数据流建立新的聚类簇。
优选地,获得所述候选聚类簇各自的质心,包括:
采用X-median算法获得所述候选聚类簇各自的质心。
优选地,将所述新到的数据流归到所述候选聚类簇的其中一个之中,或者为新到的数据流建立新的聚类簇,包括:
根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的候选聚类簇中,或者为所述新到的数据流的特征向量建立新的聚类簇。
优选地,根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的聚类簇中,或者为所述新到的数据流的特征向量建立新的聚类簇,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国信息安全测评中心;北京启明星辰信息安全技术有限公司,未经中国信息安全测评中心;北京启明星辰信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210365295.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种立体油墨
- 下一篇:一种改进的回旋加速器离子源系统