[发明专利]基于HBase的矢量空间大数据存储方法无效
申请号: | 201310023052.6 | 申请日: | 2013-01-23 |
公开(公告)号: | CN103116610A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 陈华钧;黄梅龙;胡磊;郑国轴;吴朝晖 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 应圣义 |
地址: | 310027 浙江省杭州市浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hbase 矢量 空间 数据 存储 方法 | ||
技术领域
本发明涉及一种计算机大数据存储领域,特别涉及一种基于HBase的矢量空间大数据存储方法。
背景技术
矢量数据作为重要的一种空间数据类型,已经在空间信息领域得到广泛的应用。但是,由于它具有数据量大、数据记录变长等特点,使得可扩展地存储和管理大量的矢量数据以及高效地访问空间数据成为人们所关心的一个话题。
地理数据是以地球表面作为基本参照框架的空间数据及其属性信息。为了便于获取、存储、分析和管理地理数据,建立了地理信息系统,简称GIS系统(geographic information system)。GIS系统表示了真是世界的各个目标,如道路、土地、海拔等等。矢量数据结构中,一个区域划分成为若干个多边形,每个多边形由若干条线段或者弧线组成。矢量数据结构数据存储量小、图形精度高、容易定义单个空间对象,但是处理空间关系你比较费时,常用于描述图形数据。栅格数据结构中,地里实体用网格单元的行和列标识,栅格数据简单、容易处理空间位置关系,但是数据存储量大,图形精度低,常用于描述图像和影像数据。
当前,多采用文件系统来管理栅格数据,采用数据库来管理矢量数据。但是矢量数据既包括适合用传统关系型数据库来管理的结构化数据,也包括一些不适合用传统关系型数据库来管理的板结构化和非结构化数据。
目前各大数据库厂商也不断的优化矢量数据的管理,很多厂商在自己的产品上实现了对矢量数据的支持和扩展。多数解决方案是将于矢量数据相关的属性数据存放在传统的关系型数据库中,将真正的空间数据存储在其它数据库或者使用中间件的方案解决。但大多数功能不够完善,也存在一些弊端。
而且,对于空间数据,特别是矢量数据,不仅是其中真正的矢量数据部分不定长、各式不统一,而且这些矢量数据相关的属性数据的类型和数量也不一致,比如对于典型的矢量数据文件shapefile文件来说,不同的shapefile文件中的属性数据的字段类型、字段数目以及字段的意义都不一样,如果用传统的关系型数据库类存储,可能需要建立很多个表。也就是说这些数据不是结构化的数据,使用传统的关系型数据库存储就不是很合适。
对于当前的GIS系统来说,空间数据的数据量都是十分巨大的。随着矢量数据规模的不断增大,单个节点的处理能力会逐渐成为瓶颈,单点故障的问题也逐渐变得严重。传统的关系型数据库多运行在单个节点上,支持分布式的数据库的成本和配置代价也会更高。而且多数关系型数据库集群的性能和可扩展性并不是很好。
由此可见,矢量数据具有与非结构化或者半结构化以及数据量大的特征,对矢量数据的存储、查询和管理应该充分考虑这些特性,使用传统的关系型数据库来对矢量数据进行存储和管理已经不太合适。
发明内容
本发明针对现有技术无法适应地理数据巨大的数据量的缺点,提供了一种能够适应大容量的地理数据,随着数据量的大幅增大能够保持稳定的数据处理性能的新型的基于HBase的矢量空间大数据存储方法。
为实现上述目的,本发明可采取下述技术方案:
基于HBase的矢量空间大数据存储方法,包括以下具体步骤:
1)收集矢量数据记录,所述矢量数据记录包括一个数据字段和多个属性字段;
2)计算所述矢量数据记录的空间范围编号,所述空间范围编号是能够完全包括所述矢量数据记录的最小网格的网格编号,所述网格为将全球以一定经纬度为边界进行划分所形成的区域,选取多个具有不同大小的网格,将所述不同大小的网格按照网格的大小进行排序并进行编号得到网格级别,所述网格编号包括所述网格的中心坐标、网格级别;
3)以所述矢量数据记录的ID作为行键RowKey,以所述矢量数据记录的数据字段和除ID以外的属性字段作为列建立数据记录,将所述数据记录添加至HBase数据库中,所述属性字段的字段名称为所述列的列名;
4)以所述矢量数据记录的空间范围编号作为行键RowKey,以所述空间范围编号下的所有矢量空间数据的ID作为列建立索引,将所述索引添加至HBase数据库中。
作为优选,所述矢量数据记录为从包含所述矢量数据记录的矢量数据文件中解析所得,或者为从地理数据中制作获得。
作为优选,所述数据字段以WKB格式保存。
作为优选,所述中心坐标为经纬度坐标。
作为优选,所述步骤3的列形成一个列簇。
作为优选,所述步骤4中所有矢量空间数据的ID记录在一个列中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310023052.6/2.html,转载请声明来源钻瓜专利网。