[发明专利]一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法在审
| 申请号: | 201811114506.X | 申请日: | 2018-09-25 |
| 公开(公告)号: | CN109214462A | 公开(公告)日: | 2019-01-15 |
| 发明(设计)人: | 毛克明;刘舒琦;马卿云 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/26 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李运萍 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚类结果 在线聚类 空间数据流 数据流 空间数据 集群 算法 分布式集群 聚类处理 聚类分析 数据挖掘 顺序访问 应用场景 大数据 分发源 下空间 源数据 聚类 全局 分发 分区 合成 场景 返回 更新 分析 生产 | ||
本发明提供一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法,涉及数据挖掘和大数据分析领域。该方法针对特定生产场景中的空间数据,搭建分布式集群,进行分布式在线聚类处理,将源数据分区并分发到集群的各个节点采用DBSCAN聚类处理,通过新到达的空间数据更新原始聚类结果,通过顺序访问集群各个节点的聚类结果,为每个数据点标记全局唯一的聚类编号。本发明的方法能够自动划分、分发源数据,合成局部聚类结果并返回全局聚类结果,从而满足缩短处理时间与适应数据流的要求,为大规模实际应用场景下空间数据流的聚类分析奠定基础。
技术领域
本专利技术涉及数据挖掘和大数据分析领域,具体涉及一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法。
背景技术
空间聚类分析是空间数据挖掘与知识发现的重要方法之一,已广泛应用于地理学、地质学、气象学、地图学、天文学及公共卫生等诸多领域,空间聚类是指将数据集中对象按照相似度标准分簇,同一簇中的对象相似度较高,而不同簇中的对象差异较大。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种经典的基于密度的空间聚类算法,该算法的优势在于聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类,并且不需要预先设定待划分的聚类个数,因此被广泛应用于空间数据的聚类问题。DBSCAN算法待输入的距离阈值、邻域样本数阈值两个参数,已有许多研究结果表明可以根据数据集的分布特征自动选取,不需要人为设置,极大地增强了使用DBSCAN方法的便利性。
然而,近年来,随着实时监控系统、互联网环境等动态应用环境的发展,数据已不仅表现为文件、数据库等传统的静态形式,动态应用环境源源不断地产生海量的、时序的、快速变化的和潜在无限的数据流,因此对于数据流信息挖掘具有重要意义。DBSCAN算法用于解决静态空间数据的聚类问题,算法执行前需要获取全部数据;对于空间数据流的聚类分析,DBSCAN方法不再适用,因此引入增量型DBSCAN方法,当源源不断的新空间数据到达时,对已有聚类结果做修正处理,实现对空间数据流的在线聚类处理。
DBSCAN方法运行在单处理机模式下,对于大规模数据其处理时间较长,难以满足时效性强的空间数据流聚类任务,因此引入分布式的增量型DBSCAN方法,提高空间数据流在线聚类的运行效率。而弹性分布式数据集(RDDs)作为分布式内存的抽象使用,用于大规模数据集的内存计算,通过将中间结果缓存在内存中减少磁盘I/O操作。RDDs将数据集全部加载到内存,这种内存共享方式方便数据的多次重用。RDDs的主要特征是分布式与弹性,分布式指在集群的多台机器上进行数据分区,多节点间协同工作完成内存计算;弹性指在计算处理过程中,能够自动进行内存和磁盘数据存储的切换,确保计算的持续进行。通过弹性分布式数据集(RDDs),能够实现增量型DNSCAN算法的完全分布式计算,克服传统DBSCAN方法的难以扩展的局限性。
因此,针对目前动态应用环境产生的空间数据流,需要改进传统DBSCAN方法,引入增量型DBSCAN方法使其根据新到达的空间数据对已有聚类结果更新,实现对空间数据流的在线聚类。同时,针对空间数据流在线聚类任务的时效性较强,需要改进增量型DBSCAN方法,引入分布式技术缩短其处理时间,通过分布式内存抽象弹性分布式数据集(RDDs),实现增量型DBSCAN方法的完全分布式计算,提高空间数据流聚类处理的时间效率。综上,结合上述两方面实际需求与现有技术的不足,需要一种基于分布式增量型DBSCAN算法的空间数据流在线聚类的方法。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法,通过引入增量学习方法与弹性分布式数据集(RDDs),实现基于DBSCAN方法的空间数据流在线聚类的完全分布式计算,解决动态应用环境中数据流模型聚类的时效性问题,改进传统DBSCAN方法,融合增量学习方法使其能够适应数据流模型,同时利用分布式技术,缩短计算处理时间使其能够适应时效性强的空间数据流聚类任务,从而为大规模实际应用场景下空间数据流的聚类分析奠定基础。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811114506.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种重建光场的方法及装置
- 下一篇:一种基于协同训练的地形分类方法





