[发明专利]一种Janusgraph数据快速批量装载的方法在审

专利信息
申请号: 202111267971.9 申请日: 2021-10-29
公开(公告)号: CN114138735A 公开(公告)日: 2022-03-04
发明(设计)人: 马杲灵;游飞龙;张林林;汪睿铭;陈雪;石尧;董博;廖海峰 申请(专利权)人: 贵州数联铭品科技有限公司
主分类号: G06F16/182 分类号: G06F16/182;G06F16/901
代理公司: 北京市领专知识产权代理有限公司 11590 代理人: 王莹莹
地址: 550002 贵州省贵阳市*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 janusgraph 数据 快速 批量 装载 方法
【说明书】:

发明涉及一种Janusgraph数据快速批量装载的方法,包括步骤:数据准备阶段:将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储,以便于Spark计算引擎进行并行读取,并创建Janusgraph待装载图数据的Schema结构,以及配置Hive表与Schema结构的映射关系;HBase数据装载阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,按照Janusgraph在HBase数据库中的存储结构与编码方式构建RDD数据集,并将RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中;Elasticsearch索引构建阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,抽取需要索引的顶点或边的属性,按照Janusgraph在Elasticsearch索引的存储结构构建RDD数据集,并将RDD数据集并行写入到Elasticsearch索引。

技术领域

本发明涉及计算机科学大数据技术领域,特别涉及一种分布式图数据库Janusgraph数据快速批量装载的方法。

背景技术

图(Graph)是表示实体与实体之间的关系的数学逻辑对象,在数学中被表示为一个G=(V,E)的二元组,其自身由N个顶点(V=vertex)和M个边(E=edge)构成,每个顶点对应着多个边(≤M),每个边又连接着两个顶点,边可以存在方向,如果图所包含的边带有方向,则称为有向图,否则为无向图。

图数据库是NoSQL数据库的一种类型,是一种非关系型数据库,它应用图理论存储实体之间的关系信息,最常见例子就是社会网络中人与人之间关系。关系型数据库用于存储“关系型”数据的效果并不好,其查询复杂、缓慢、超出预期,而图形数据库的独特设计恰恰弥补了这个缺陷。

Janusgraph是一种开源分布式图数据库,因其通用性较好、性能高、开房源代码等优势,在图数据分析领域被广泛使用。Janusgraph支持以Cassandra、HBase等数据库做为存储,用于保存完整的图结构数据;支持以Elasticsearch、Solr等做为索引,可实现对索引后的顶点与边进行实时检索。由于HBase、Elasticsearch等在大数据领域使用比较广泛,且性能优异,本方案主要针对以HBase集群做为存储,Elasticsearch集群做为索引的场景。

基于这种场景,现有Janusgraph在装载数据时存在以下问题:

(1)通过Janusgraph提供的API接口装载数据入图,会以事务的方式进行提交,增加了数据装载的性能开销,然而离线数据装载可以不通过事务来保证数据一致性。

(2)Janusgraph提供的API接口调用了HBase数据库的API接口来保存数据到HBase数据库,期间HBase会频繁的进行flush、compact、split操作,造成大量不必要的资源消耗,从而降低入库效率。而且如果HBase数据库的API接口调用速度超过HBase数据库的写入能力,可能会存在部分数据写入丢失,而导致图数据缺失的问题。

(3)Janusgraph提供的API接口调用HBase数据库的API接口来保存数据,返回成功后再调用Elasticsearch索引的API接口构建索引,这种串行写入的方式无法充分利用HBase数据与Elasticsearch索引的集群资源。

发明内容

本发明的目的在于针对Janusgraph开源分布式图数据库,使用HBase集群做为图数据存储,Elasticsearch集群做为索引的场景,特别适用于亿级以上超大规模的海量数据快速批量装载,本发明充分利用集群资源提高数据批量装载入Janusgraph的性能,解决海量数据批量装载慢的问题,同时解决了通过HBase数据库的API接口并行写入海量数据可能产生部分数据写入丢失而导致图数据缺失的问题,提供一种分布式图数据库Janusgraph数据快速批量装载的方法。

为了实现上述发明目的,本发明实施例提供了以下技术方案:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州数联铭品科技有限公司,未经贵州数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111267971.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top