[发明专利]一种Janusgraph数据快速批量装载的方法在审

申请号：	202111267971.9	申请日：	2021-10-29
公开（公告）号：	CN114138735A	公开（公告）日：	2022-03-04
发明（设计）人：	马杲灵;游飞龙;张林林;汪睿铭;陈雪;石尧;董博;廖海峰	申请（专利权）人：	贵州数联铭品科技有限公司
主分类号：	G06F16/182	分类号：	G06F16/182;G06F16/901
代理公司：	北京市领专知识产权代理有限公司 11590	代理人：	王莹莹
地址：	550002 贵州省贵阳市***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 janusgraph 数据快速批量装载方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种Janusgraph数据快速批量装载的方法，其特征在于：包括以下步骤：

数据准备阶段：将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储，以便于Spark计算引擎进行并行读取，并创建Janusgraph待装载图数据的Schema结构，以及配置Hive表与Schema结构的映射关系；

HBase数据装载阶段：使用Spark计算引擎并行读取Hive表中的顶点与边，按照Janusgraph在HBase数据库中的存储结构与编码方式构建第一RDD数据集，并将第一RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中；

Elasticsearch索引构建阶段：使用Spark计算引擎并行读取Hive表中的顶点与边，抽取需要索引的顶点或边的属性，按照Janusgraph在Elasticsearch索引的存储结构构建第二RDD数据集，并将第二RDD数据集并行写入到Elasticsearch索引。

2.根据权利要求1所述的一种Janusgraph数据快速批量装载的方法，其特征在于：所述将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储，以便于Spark计算引擎进行并行读取的步骤，包括：

将需要批量装入图的数据划分为顶点和边，分别形成顶点Hive表和边Hive表，在每张顶点Hive表和边Hive表上进行分片存储；

使用Spark计算引擎对所有顶点Hive表的所有顶点分配全局唯一顶点ID，并将所有边Hive表的所有边的关联顶点替换为分配的顶点ID，再对所有边Hive表的所有边分配全局唯一边ID。

3.根据权利要求2所述的一种Janusgraph数据快速批量装载的方法，其特征在于：所述并创建Janusgraph待装载图数据的Schema结构，以及配置Hive表与Schema结构的映射关系的步骤，包括：

创建Janusgraph待装载图数据的Schema结构，所述Schema结构包含属性、顶点标签、边标签、Mixed索引；

创建配置文件，配置顶点与边的Hive表名、字段与Janusgraph的标签、属性的映射关系。

4.根据权利要求3所述的一种Janusgraph数据快速批量装载的方法，其特征在于：所述使用Spark计算引擎并行读取Hive表中的顶点与边，按照Janusgraph在HBase数据库中的存储结构与编码方式构建第一RDD数据集的步骤，包括：

连接Janusgraph创建的Schema结构，获取属性、顶点标签、边标签的相关信息，并读取所述映射关系；

使用Spark计算引擎并行读取已分配ID的顶点Hive表和边Hive表中的数据，按照Janusgraph在HBase数据库中的存储结构与编码方式进行转换与编码，使得每条数据都含有HBase数据库的行键、列簇、列名、值，并将所有转换编码后的数据合并成第一RDD数据集。

5.根据权利要求4所述的一种Janusgraph数据快速批量装载的方法，其特征在于：所述并将第一RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中的步骤，包括：

读取Janusgraph存储对应于HBase数据库的行键分区信息，对生成的第一RDD数据集进行重新分区，并在分区内按照行键、列簇、列名的顺序进行排序，然后将第一RDD数据集以HFile文件形式分片保存到HDFS分布式文件系统中；

读取HDFS分布式文件系统中的HFile文件，将HFile文件装载到Janusgraph存储对应的HBase数据库中。

6.根据权利要求3所述的一种Janusgraph数据快速批量装载的方法，其特征在于：所述Elasticsearch索引构建阶段的具体步骤，包括：

连接创建的Mixed索引信息，其中包含索引名称、索引类型、标签、索引属性名称，并读取配置的所述映射关系；

使用Spark计算引擎并行读取数据准备阶段所准备好的顶点Hive表和边Hive表，使用索引信息进行判断，如果某顶点或某边有配置索引，则抽取所需索引属性数据，按照Janusgraph在Elasticsearch的索引存储结构构建第二RDD数据集；

将抽取并转换好的顶点或边的第二RDD数据集，根据Janusgraph的Elasticsearch索引存储位置并行写入到Elasticsearch索引。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州数联铭品科技有限公司，未经贵州数联铭品科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111267971.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载