[发明专利]面向海量轨迹点数据的时空索引构建方法有效

申请号：	201710270989.1	申请日：	2017-04-24
公开（公告）号：	CN107220285B	公开（公告）日：	2020-01-21
发明（设计）人：	陈昭;王磊;刁博宇;徐勇军	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F16/22	分类号：	G06F16/22
代理公司：	11280 北京泛华伟业知识产权代理有限公司	代理人：	王勇
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据文件空间填充特性可扩展性索引单元索引构建索引结构点数据轨迹点映射多维索引并行存储时空消耗概率
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种面向海量轨迹点数据的并行时空索引构建方法，以轨迹点数据文件作为索引单元，降低了索引的存储消耗，使索引结构具有高度的可扩展性；同时使用了希尔伯特曲线对数据文件进行划分，相比其他的多维到一维映射的方式，希尔伯特曲线因其优秀的空间填充特性使得划分效果更良好，能够降低数据倾斜发生的概率。

技术领域

本发明涉及信息检索领域，特别涉及一种面向海量轨迹点数据的时空索引构建方法。

背景技术

随着科学技术的发展，当今世界已进入大数据时代。数据规模的快速增长，使得大数据需要具备全局表达力，时空大数据因其能够体现时间、空间以及对象之间的关联关系，成为了重要的大数据之一。然而，时空大数据之间相对复杂的关系及其动态演化的特性，也带来了检索查询的困难。轨迹点数据就属于时空大数据，其具体是指，在时空环境下，通过对移动对象运动过程的采样所获得的数据信息。近年来，卫星、无线网络，以及定位设备高速发展，大量移动物体的轨迹点数据呈急速增长的趋势，对于轨迹点数据的索引构建及优化查询成为了近年来的热门研究。

Hadoop是当下流行的一种分布式计算框架，适用于各类大规模数据的计算处理场景，具有广泛的应用基础，目前已有一些基于该框架及其生态软件提出的时空索引方法，如基于HBase的Q树时空索引、基于HBase的网格R树混合时空索引等。现有的时空索引构建方法，大多将数据记录条作为索引单元，这种方式导致存储消耗大且索引构建效率较低，无法满足不同类型的时空大数据快速增长的需求。

发明内容

本发明的目的是提供一种面向海量轨迹点数据的时空索引构建方法，该方法能够克服上述现有技术的缺陷，在分布式环境下并行构建轨迹点数据的时空索引，效率较高；并且以数据文件作为索引单元，使索引结构具有灵活的扩展性。

本发明采用的技术方案如下：一种面向海量轨迹点数据的时空索引构建方法，包括以下步骤：

步骤1)、将轨迹点数据存储在轨迹点数据文件中；

步骤2)、以所述步骤1)中的轨迹点数据文件为索引单元构建索引树。

优选的，所述步骤1)中的轨迹点数据至少包含时间信息和二维位置信息。

优选的，所述步骤2)进一步包括：

步骤21)、将所述轨迹点数据文件划分到至少一个计算单元中；

步骤22)、所述计算单元基于空间索引结构构建时空索引。

优选的，当所述计算单元为多个并行计算单元时，所述步骤21)中对轨迹点数据文件的划分为有序划分。

优选的，利用空间填充曲线实现所述步骤21)的有序划分。

优选的，所述空间填充曲线为希尔伯特曲线。