[发明专利]一种分布式数据流聚类方法及系统有效
| 申请号: | 201210365295.3 | 申请日: | 2012-09-26 |
| 公开(公告)号: | CN102915347B | 公开(公告)日: | 2016-10-12 |
| 发明(设计)人: | 吴世忠;曲武;李世贤;王君鹤;偰赓;陈巍 | 申请(专利权)人: | 中国信息安全测评中心;北京启明星辰信息安全技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 栗若木;曲鹏 |
| 地址: | 100085 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 数据流 方法 系统 | ||
1.一种分布式数据流聚类方法,包括:
对数据流进行概要处理,获得数据流的多个特征向量;
利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇,并从中选取至少一个聚类簇作为候选聚类簇;
周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理。
2.根据权利要求1所述的方法,其中,利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇,并从中选取至少一个聚类簇作为候选聚类簇,包括:
利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理,获得位置敏感哈希数据结构,得到位置敏感哈希映射值;
对所述位置敏感哈希映射值进行二次哈希,得到一维索引值,落入相应的哈希桶中;
使用Top-k算法从包含有至少一个特征向量的哈希桶中选取包含特征向量最多的前k个哈希桶作为所述候选聚类簇;所述k大于等于1。
3.根据权利要求2所述的方法,利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理,包括:
采用至少一个位置敏感哈希函数族对所述多个特征向量进行所述哈希处理;
其中,每个所述位置敏感哈希函数族由从稳态分布位置敏感哈希函数族中以独立、一致随机的方式选择出的多个位置敏感哈希函数运算构成。
4.根据权利要求1所述的方法,其中,周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理,包括:
获得所述候选聚类簇各自的质心;
周期地计算所述新到的数据流的特征向量到所有质心的距离范数;
将所述新到的数据流的特征向量归到所述候选聚类簇的其中一个之中,或者为新到的数据流建立新的聚类簇。
5.根据权利要求4所述的方法,获得所述候选聚类簇各自的质心,包括:
采用X-median算法获得所述候选聚类簇各自的质心。
6.根据权利要求4所述的方法,其中,将所述新到的数据流归到所述候选聚类簇的其中一个之中,或者为新到的数据流建立新的聚类簇,包括:
根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的候选聚类簇中,或者为所述新到的数据流的特征向量建立新的聚类簇。
7.根据权利要求6所述的方法,根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的聚类簇中,或者为所述新到的数据流的特征向量建立新的聚类簇,包括:
所述新到的数据流的特征向量到所述候选聚类簇各自的质心的最小距离小于所述预设的距离阈值时,将所述新到的数据流的特征向量归到所述距离最小的质心所在的聚类簇中,否则为所述新到的数据流的特征向量建立所述新的聚类簇。
8.一种分布式数据流聚类系统,包括:
在线组件,配置为对数据流进行概要处理,获得数据流的多个特征向量,利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇,并从中选择至少一个聚类簇作为候选聚类簇;
离线组件,配置为周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理。
9.根据权利要求8所述的系统,其中,所述在线组件包括:
概要处理模块,配置为对数据流进行概要处理,获得数据流的多个特征向量;
一次哈希模块,配置为利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理,获得位置敏感哈希数据结构,得到位置敏感哈希映射值;
二次哈希模块,配置为对所述位置敏感哈希映射值进行二次哈希,得到一维索引值,落入相应的哈希桶中;
聚类簇选取模块,配置为使用Top-k算法从所有哈希桶中选取包含特征向量最多的前k个哈希桶作为所述候选聚类簇;所述k大于等于1。
10.根据权利要求9所述的系统,其中:
所述一次哈希模块配置为采用至少一个位置敏感哈希函数族对所述多个特征向量进行所述哈希处理;
其中,每个所述位置敏感哈希函数族由从稳态分布位置敏感哈希函数族中以独立、一致随机的方式选择出的多个位置敏感哈希函数运算构成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国信息安全测评中心;北京启明星辰信息安全技术有限公司,未经中国信息安全测评中心;北京启明星辰信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210365295.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种立体油墨
- 下一篇:一种改进的回旋加速器离子源系统





