[发明专利]一种Janusgraph数据快速批量装载的方法在审
| 申请号: | 202111267971.9 | 申请日: | 2021-10-29 |
| 公开(公告)号: | CN114138735A | 公开(公告)日: | 2022-03-04 |
| 发明(设计)人: | 马杲灵;游飞龙;张林林;汪睿铭;陈雪;石尧;董博;廖海峰 | 申请(专利权)人: | 贵州数联铭品科技有限公司 |
| 主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/901 |
| 代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 王莹莹 |
| 地址: | 550002 贵州省贵阳市*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 janusgraph 数据 快速 批量 装载 方法 | ||
1.一种Janusgraph数据快速批量装载的方法,其特征在于:包括以下步骤:
数据准备阶段:将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储,以便于Spark计算引擎进行并行读取,并创建Janusgraph待装载图数据的Schema结构,以及配置Hive表与Schema结构的映射关系;
HBase数据装载阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,按照Janusgraph在HBase数据库中的存储结构与编码方式构建第一RDD数据集,并将第一RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中;
Elasticsearch索引构建阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,抽取需要索引的顶点或边的属性,按照Janusgraph在Elasticsearch索引的存储结构构建第二RDD数据集,并将第二RDD数据集并行写入到Elasticsearch索引。
2.根据权利要求1所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储,以便于Spark计算引擎进行并行读取的步骤,包括:
将需要批量装入图的数据划分为顶点和边,分别形成顶点Hive表和边Hive表,在每张顶点Hive表和边Hive表上进行分片存储;
使用Spark计算引擎对所有顶点Hive表的所有顶点分配全局唯一顶点ID,并将所有边Hive表的所有边的关联顶点替换为分配的顶点ID,再对所有边Hive表的所有边分配全局唯一边ID。
3.根据权利要求2所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述并创建Janusgraph待装载图数据的Schema结构,以及配置Hive表与Schema结构的映射关系的步骤,包括:
创建Janusgraph待装载图数据的Schema结构,所述Schema结构包含属性、顶点标签、边标签、Mixed索引;
创建配置文件,配置顶点与边的Hive表名、字段与Janusgraph的标签、属性的映射关系。
4.根据权利要求3所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述使用Spark计算引擎并行读取Hive表中的顶点与边,按照Janusgraph在HBase数据库中的存储结构与编码方式构建第一RDD数据集的步骤,包括:
连接Janusgraph创建的Schema结构,获取属性、顶点标签、边标签的相关信息,并读取所述映射关系;
使用Spark计算引擎并行读取已分配ID的顶点Hive表和边Hive表中的数据,按照Janusgraph在HBase数据库中的存储结构与编码方式进行转换与编码,使得每条数据都含有HBase数据库的行键、列簇、列名、值,并将所有转换编码后的数据合并成第一RDD数据集。
5.根据权利要求4所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述并将第一RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中的步骤,包括:
读取Janusgraph存储对应于HBase数据库的行键分区信息,对生成的第一RDD数据集进行重新分区,并在分区内按照行键、列簇、列名的顺序进行排序,然后将第一RDD数据集以HFile文件形式分片保存到HDFS分布式文件系统中;
读取HDFS分布式文件系统中的HFile文件,将HFile文件装载到Janusgraph存储对应的HBase数据库中。
6.根据权利要求3所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述Elasticsearch索引构建阶段的具体步骤,包括:
连接创建的Mixed索引信息,其中包含索引名称、索引类型、标签、索引属性名称,并读取配置的所述映射关系;
使用Spark计算引擎并行读取数据准备阶段所准备好的顶点Hive表和边Hive表,使用索引信息进行判断,如果某顶点或某边有配置索引,则抽取所需索引属性数据,按照Janusgraph在Elasticsearch的索引存储结构构建第二RDD数据集;
将抽取并转换好的顶点或边的第二RDD数据集,根据Janusgraph的Elasticsearch索引存储位置并行写入到Elasticsearch索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州数联铭品科技有限公司,未经贵州数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111267971.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





