[发明专利]一种基于R树的分布式时空数据索引方法有效
申请号: | 201911389582.6 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111078634B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 王鹏;刘涛;程坦;陈昭;汪玮 | 申请(专利权)人: | 中科海拓(无锡)科技有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/18 |
代理公司: | 无锡市观知成专利商标代理事务所(特殊普通合伙) 32591 | 代理人: | 任月娜 |
地址: | 214071 江苏省无*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 时空 数据 索引 方法 | ||
1.一种基于R树的分布式时空数据索引方法,主要特征包括如下步骤:
(1)、索引记录生成:通过存储在Hive中的单张轨迹数据表,采用单个文件存储所有已构建的时空索引树的属性信息,每行记录包含一个索引树的索引文件所在文件夹的HDFS路径、该索引树中索引文件的HDFS文件路径共同前缀,以及该索引树中包含所有索引记录的时间戳、经纬度取值范围;文件中的记录按索引树包含的最小时间戳取值升序存储;
(2)索引记录预排序:是基于上节获得的包含索引记录的元组,调用算法计算单条索引记录中时空范围的Key值对索引记录进行预排序,以改善时空索引树的构建过程,完成索引记录生成的运算后,进行索引记录的预排序;
(3)索引树构建:基于遍历所有轨迹数据文件并经过预排序后的索引记录进行,最终构建R数的分布式时空数据索引表;
步骤(2)索引记录预排序,其实现方法包括:
(31)确定索引关键值:定义Hilbert函数计算单条索引记录中时空范围的Hilbert值并以Hilbert值为Key值对索引记录进行预排序;
(32)时空立方体算法:空间填充曲线Hilbert函数是将一个多维的点映射为一个一维的数值,单条索引记录的时空范围可以表征为一个时空立方体,因此需要以一个点描述该时空立方体,以获得索引记录的Hilbert值;
(33)算法优化:由于三维向量的Hilbert值的生成规则基于正立方体空间生成,因此需要尽可能使时间、空间取值数量级相近,以2的幂次方为衡量标准,以减少不被“访问”的空间,优化生成的Hilbert值;
步骤(33)算法优化,其实现方法包括:
(81)时间维度优化:取时间戳now作为基准,减去每条索引记录的时间戳值进而获得的差值作为计算Hilbert值时的时间取值,当数据记录中的最小时间戳值与基准时间戳值相差一年时,最大差值为2的25次方;所述now为索引构建时实时获取的时间戳;
(82)经纬度优化:将索引记录的经纬度值扩大到以分为单位的数值,则经度的最大分度值为2的20次方;
(83)时空优化:设基准时间戳值为now,则第i条索引记录的Hilbert值计算方式:
pointi=(now-(timin+timax)/2,(ximin+ximax)/2*3600,(yimin+yimax)/2*3600)
hi=Hilbert(pointi)。
2.按照权利要求1所述的一种基于R树的分布式时空数据索引方法,其特征在于,步骤(1)索引记录的生成,其实现方法包括:
(21)被索引的文件存储在一个文件夹:参与构建时空索引的轨迹数据文件存储在HDFS的同一文件夹下;
(22)构建文件索引记录:基于所有文件索引记录构建的R树时空索引最终将序列化为若干个索引文件,存储在HDFS的指定目录下,同一时空索引树的索引文件存储在单独文件夹下;
(23)索引记录元组生成:对所有轨迹数据文件进行遍历,并以文件为单位对文件中包含的轨迹数据记录的时间戳、经纬度取值进行统计,生成参与索引的索引记录元组;
(24)索引记录生成算法:索引记录生成的算法描述主要说明了对大量轨迹数据文件进行并行遍历并统计各文件的时间戳、经纬度取值范围,最终生成索引记录;
(25)三元组间的聚合算法:将时空三元组的时间、经纬度值与范围元组中的对应最大值最小值进行比较,选取其中的较大、较小值作为新的最大值、最小值,并将比较后的新时空范围元组作为结果返回。
3.按照权利要求1所述的一种基于R树的分布式时空数据索引方法,其特征在于,步骤(3)索引树构建,其实现方法包括:
(41)构建时空数据索引R*树:获得经过预排序后的所有索引记录,然后依据索引记录中包含的时空三维信息,构建为时空索引R*树;
(42)时空数据索引操作:以页为单位对节点进行存储、记录、更改、删除和退出操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科海拓(无锡)科技有限公司,未经中科海拓(无锡)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911389582.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置