[发明专利]一种Janusgraph数据快速批量装载的方法在审
| 申请号: | 202111267971.9 | 申请日: | 2021-10-29 |
| 公开(公告)号: | CN114138735A | 公开(公告)日: | 2022-03-04 |
| 发明(设计)人: | 马杲灵;游飞龙;张林林;汪睿铭;陈雪;石尧;董博;廖海峰 | 申请(专利权)人: | 贵州数联铭品科技有限公司 |
| 主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/901 |
| 代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 王莹莹 |
| 地址: | 550002 贵州省贵阳市*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 janusgraph 数据 快速 批量 装载 方法 | ||
本发明涉及一种Janusgraph数据快速批量装载的方法,包括步骤:数据准备阶段:将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储,以便于Spark计算引擎进行并行读取,并创建Janusgraph待装载图数据的Schema结构,以及配置Hive表与Schema结构的映射关系;HBase数据装载阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,按照Janusgraph在HBase数据库中的存储结构与编码方式构建RDD数据集,并将RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中;Elasticsearch索引构建阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,抽取需要索引的顶点或边的属性,按照Janusgraph在Elasticsearch索引的存储结构构建RDD数据集,并将RDD数据集并行写入到Elasticsearch索引。
技术领域
本发明涉及计算机科学大数据技术领域,特别涉及一种分布式图数据库Janusgraph数据快速批量装载的方法。
背景技术
图(Graph)是表示实体与实体之间的关系的数学逻辑对象,在数学中被表示为一个G=(V,E)的二元组,其自身由N个顶点(V=vertex)和M个边(E=edge)构成,每个顶点对应着多个边(≤M),每个边又连接着两个顶点,边可以存在方向,如果图所包含的边带有方向,则称为有向图,否则为无向图。
图数据库是NoSQL数据库的一种类型,是一种非关系型数据库,它应用图理论存储实体之间的关系信息,最常见例子就是社会网络中人与人之间关系。关系型数据库用于存储“关系型”数据的效果并不好,其查询复杂、缓慢、超出预期,而图形数据库的独特设计恰恰弥补了这个缺陷。
Janusgraph是一种开源分布式图数据库,因其通用性较好、性能高、开房源代码等优势,在图数据分析领域被广泛使用。Janusgraph支持以Cassandra、HBase等数据库做为存储,用于保存完整的图结构数据;支持以Elasticsearch、Solr等做为索引,可实现对索引后的顶点与边进行实时检索。由于HBase、Elasticsearch等在大数据领域使用比较广泛,且性能优异,本方案主要针对以HBase集群做为存储,Elasticsearch集群做为索引的场景。
基于这种场景,现有Janusgraph在装载数据时存在以下问题:
(1)通过Janusgraph提供的API接口装载数据入图,会以事务的方式进行提交,增加了数据装载的性能开销,然而离线数据装载可以不通过事务来保证数据一致性。
(2)Janusgraph提供的API接口调用了HBase数据库的API接口来保存数据到HBase数据库,期间HBase会频繁的进行flush、compact、split操作,造成大量不必要的资源消耗,从而降低入库效率。而且如果HBase数据库的API接口调用速度超过HBase数据库的写入能力,可能会存在部分数据写入丢失,而导致图数据缺失的问题。
(3)Janusgraph提供的API接口调用HBase数据库的API接口来保存数据,返回成功后再调用Elasticsearch索引的API接口构建索引,这种串行写入的方式无法充分利用HBase数据与Elasticsearch索引的集群资源。
发明内容
本发明的目的在于针对Janusgraph开源分布式图数据库,使用HBase集群做为图数据存储,Elasticsearch集群做为索引的场景,特别适用于亿级以上超大规模的海量数据快速批量装载,本发明充分利用集群资源提高数据批量装载入Janusgraph的性能,解决海量数据批量装载慢的问题,同时解决了通过HBase数据库的API接口并行写入海量数据可能产生部分数据写入丢失而导致图数据缺失的问题,提供一种分布式图数据库Janusgraph数据快速批量装载的方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州数联铭品科技有限公司,未经贵州数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111267971.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





