[发明专利]面向海量轨迹点数据的时空索引构建方法有效
申请号: | 201710270989.1 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107220285B | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 陈昭;王磊;刁博宇;徐勇军 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 11280 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据文件 空间填充特性 可扩展性 索引单元 索引构建 索引结构 点数据 轨迹点 映射 多维 索引 并行 存储 时空 消耗 概率 | ||
本发明涉及一种面向海量轨迹点数据的并行时空索引构建方法,以轨迹点数据文件作为索引单元,降低了索引的存储消耗,使索引结构具有高度的可扩展性;同时使用了希尔伯特曲线对数据文件进行划分,相比其他的多维到一维映射的方式,希尔伯特曲线因其优秀的空间填充特性使得划分效果更良好,能够降低数据倾斜发生的概率。
技术领域
本发明涉及信息检索领域,特别涉及一种面向海量轨迹点数据的时空索引构建方法。
背景技术
随着科学技术的发展,当今世界已进入大数据时代。数据规模的快速增长,使得大数据需要具备全局表达力,时空大数据因其能够体现时间、空间以及对象之间的关联关系,成为了重要的大数据之一。然而,时空大数据之间相对复杂的关系及其动态演化的特性,也带来了检索查询的困难。轨迹点数据就属于时空大数据,其具体是指,在时空环境下,通过对移动对象运动过程的采样所获得的数据信息。近年来,卫星、无线网络,以及定位设备高速发展,大量移动物体的轨迹点数据呈急速增长的趋势,对于轨迹点数据的索引构建及优化查询成为了近年来的热门研究。
Hadoop是当下流行的一种分布式计算框架,适用于各类大规模数据的计算处理场景,具有广泛的应用基础,目前已有一些基于该框架及其生态软件提出的时空索引方法,如基于HBase的Q树时空索引、基于HBase的网格R树混合时空索引等。现有的时空索引构建方法,大多将数据记录条作为索引单元,这种方式导致存储消耗大且索引构建效率较低,无法满足不同类型的时空大数据快速增长的需求。
发明内容
本发明的目的是提供一种面向海量轨迹点数据的时空索引构建方法,该方法能够克服上述现有技术的缺陷,在分布式环境下并行构建轨迹点数据的时空索引,效率较高;并且以数据文件作为索引单元,使索引结构具有灵活的扩展性。
本发明采用的技术方案如下:一种面向海量轨迹点数据的时空索引构建方法,包括以下步骤:
步骤1)、将轨迹点数据存储在轨迹点数据文件中;
步骤2)、以所述步骤1)中的轨迹点数据文件为索引单元构建索引树。
优选的,所述步骤1)中的轨迹点数据至少包含时间信息和二维位置信息。
优选的,所述步骤2)进一步包括:
步骤21)、将所述轨迹点数据文件划分到至少一个计算单元中;
步骤22)、所述计算单元基于空间索引结构构建时空索引。
优选的,当所述计算单元为多个并行计算单元时,所述步骤21)中对轨迹点数据文件的划分为有序划分。
优选的,利用空间填充曲线实现所述步骤21)的有序划分。
优选的,所述空间填充曲线为希尔伯特曲线。
优选的,所述步骤21)进一步包括:
步骤211)计算用于表征所述轨迹点数据文件的二维空间信息的二维希尔伯特值;
步骤212)根据所述步骤211)中计算得出的二维希尔伯特值计算用于表征所述轨迹点数据文件的三维空间信息的三维希尔伯特值;
步骤213)根据所述步骤212)中计算得出的三维希尔伯特值对所述轨迹点数据文件进行划分。
优选的,所述步骤22)中的空间索引结构是R*树结构。
优选的,可基于MapReduce或Spark编程框架实现对所述多级时空索引树的构建。
根据本发明的另一个方面,提供一种基于上述方法构建的索引树对轨迹点数据进行查询的方法,包括:
步骤a)、遍历所述索引树的根节点,取得根节点列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710270989.1/2.html,转载请声明来源钻瓜专利网。