[发明专利]一种基于PID的海洋时空大数据并行KNN查询处理方法有效
申请号: | 202110354512.8 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113010525B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 乔百友;马玲;郝元卿;胡兵;孙永佼;吴刚;韩东红 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/215;G06F16/2455;G06F16/27;G06F18/2413;G06F18/213;G06N3/0464;G06N3/049 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 pid 海洋 时空 数据 并行 knn 查询 处理 方法 | ||
本发明提供一种基于PID的海洋时空大数据并行KNN查询处理方法,涉及时空大数据管理技术领域。该方法首次引入工业界广泛使用的PID控制器技术,实现了基于反馈机制的变步长查找处理。首先对获取到的海洋数据进行预处理,并采用网格划分方法实现对数据的划分,在此基础上,采用网格索引技术来索引预处理后的海洋数据;采用行排序方式对每个网格单元进行编码;通过使用行排序网格索引,判断出哪些行和列是在圆的半径范围内,从而直接判断是否和圆有交集;在进行KNN查询时,利用PID系统具有的可调节性,通过负反馈动态调整搜索的范围,实现KNN查询处理中查询半径的动态预测,减少了KNN查询次数,从而加快了KNN查询处理速度。
技术领域
本发明涉及时空大数据管理技术领域,尤其涉及一种基于PID的海洋时空大数据并行KNN查询处理方法。
背景技术
21世纪以来,信息技术快速发展,海洋遥感、海洋浮标等海洋观测技术的迅猛发展,海洋数据的规模呈爆炸式增长,已成为一类非常重要的大数据,海洋领域已进入大数据时代。KNN查询通常指的是给定一个空间数据集和一个查询点,返回离查询点最近的k个满足查询条件的结果。KNN查询作为一种非常重要的空间查询操作,被广泛的应用于空间应用系统,在海洋检测、海洋救援、海洋信息隐私保护等海洋应用系统中也有重要应用。如何在这类海洋大数据中进行高效的KNN查询处理,是一个具有挑战性的问题,也是当前空间数据库领域的研究热点之一。传统KNN查询处理方法通常采用集中式的数据处理方式,不适合于海洋大数据的处理,而现有的分布式环境下的KNN查询处理算法,如ParallelCircularTrip等,大都是基于MapReduce框架的,MapReduce是基于磁盘的处理框架,对于迭代处理效率较低。同时现有的这些算法通常采用网格索引和R-tree索引等索引结构,其索引效率不高。在进行KNN查询处理时,查询半径增长步长固定,导致查询次数过多,后续计算量过大,从而影响了查询处理的效率。所以很有必要结合当前高效的内存计算框架Spark,来设计一种针对海洋大数据的并行KNN查询处理方法。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于PID的海洋时空大数据并行KNN查询处理方法,结合基于内存的大数据并行处理框架Spark,并将PID控制器技术引入到时空KNN查询步长的计算当中,实现了基于反馈机制的变步长查找处理方式,从而改进了传统的固定查询半径步长的查询处理方式。
为解决上述技术问题,本发明所采取的技术方案是:一种基于PID的海洋时空大数据并行KNN查询处理方法,包括以下步骤:
步骤1:海洋大数据预处理;对获取到的海洋数据进行清洗,包括数据去重、异常处理和缺失值的填充处理;从HDFS中读取要处理的海洋数据集,并利用Spark平台的CreateRDD方法将其转换成内存中的RDD,在此过程中进行如下数据预处理:
步骤1-1:数据去重;对获取的海洋数据进行重复性检查和去重处理,保证没有重复的数据;
步骤1-2:异常处理;对去重后的海洋数据进行一致性检查和错误检测,对于不一致和异常数据进行修正,对于异常比例大于设定阈值γ1而无法修正的数据进行删除处理;
步骤1-3:缺失值处理;对于单个数据项或多个不连续的数据项的缺失进行数据插值处理,而对于连续多个数据项的缺失,采用LSTM网络进行缺失值填充;
步骤2:数据划分和网格索引构建;采用网格划分方法实现对预处理完海洋大数据的分区,将整个数据空间划分成相等大小的网格,采用行排序方法对网格进行编码,按照数据的空间位置将其投影到对应网格中,并创建索引,形成索引数据集,具体方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110354512.8/2.html,转载请声明来源钻瓜专利网。