[发明专利]一种Janusgraph数据快速批量装载的方法在审

专利信息
申请号: 202111267971.9 申请日: 2021-10-29
公开(公告)号: CN114138735A 公开(公告)日: 2022-03-04
发明(设计)人: 马杲灵;游飞龙;张林林;汪睿铭;陈雪;石尧;董博;廖海峰 申请(专利权)人: 贵州数联铭品科技有限公司
主分类号: G06F16/182 分类号: G06F16/182;G06F16/901
代理公司: 北京市领专知识产权代理有限公司 11590 代理人: 王莹莹
地址: 550002 贵州省贵阳市*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 janusgraph 数据 快速 批量 装载 方法
【权利要求书】:

1.一种Janusgraph数据快速批量装载的方法,其特征在于:包括以下步骤:

数据准备阶段:将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储,以便于Spark计算引擎进行并行读取,并创建Janusgraph待装载图数据的Schema结构,以及配置Hive表与Schema结构的映射关系;

HBase数据装载阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,按照Janusgraph在HBase数据库中的存储结构与编码方式构建第一RDD数据集,并将第一RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中;

Elasticsearch索引构建阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,抽取需要索引的顶点或边的属性,按照Janusgraph在Elasticsearch索引的存储结构构建第二RDD数据集,并将第二RDD数据集并行写入到Elasticsearch索引。

2.根据权利要求1所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储,以便于Spark计算引擎进行并行读取的步骤,包括:

将需要批量装入图的数据划分为顶点和边,分别形成顶点Hive表和边Hive表,在每张顶点Hive表和边Hive表上进行分片存储;

使用Spark计算引擎对所有顶点Hive表的所有顶点分配全局唯一顶点ID,并将所有边Hive表的所有边的关联顶点替换为分配的顶点ID,再对所有边Hive表的所有边分配全局唯一边ID。

3.根据权利要求2所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述并创建Janusgraph待装载图数据的Schema结构,以及配置Hive表与Schema结构的映射关系的步骤,包括:

创建Janusgraph待装载图数据的Schema结构,所述Schema结构包含属性、顶点标签、边标签、Mixed索引;

创建配置文件,配置顶点与边的Hive表名、字段与Janusgraph的标签、属性的映射关系。

4.根据权利要求3所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述使用Spark计算引擎并行读取Hive表中的顶点与边,按照Janusgraph在HBase数据库中的存储结构与编码方式构建第一RDD数据集的步骤,包括:

连接Janusgraph创建的Schema结构,获取属性、顶点标签、边标签的相关信息,并读取所述映射关系;

使用Spark计算引擎并行读取已分配ID的顶点Hive表和边Hive表中的数据,按照Janusgraph在HBase数据库中的存储结构与编码方式进行转换与编码,使得每条数据都含有HBase数据库的行键、列簇、列名、值,并将所有转换编码后的数据合并成第一RDD数据集。

5.根据权利要求4所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述并将第一RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中的步骤,包括:

读取Janusgraph存储对应于HBase数据库的行键分区信息,对生成的第一RDD数据集进行重新分区,并在分区内按照行键、列簇、列名的顺序进行排序,然后将第一RDD数据集以HFile文件形式分片保存到HDFS分布式文件系统中;

读取HDFS分布式文件系统中的HFile文件,将HFile文件装载到Janusgraph存储对应的HBase数据库中。

6.根据权利要求3所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述Elasticsearch索引构建阶段的具体步骤,包括:

连接创建的Mixed索引信息,其中包含索引名称、索引类型、标签、索引属性名称,并读取配置的所述映射关系;

使用Spark计算引擎并行读取数据准备阶段所准备好的顶点Hive表和边Hive表,使用索引信息进行判断,如果某顶点或某边有配置索引,则抽取所需索引属性数据,按照Janusgraph在Elasticsearch的索引存储结构构建第二RDD数据集;

将抽取并转换好的顶点或边的第二RDD数据集,根据Janusgraph的Elasticsearch索引存储位置并行写入到Elasticsearch索引。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州数联铭品科技有限公司,未经贵州数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111267971.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top