[发明专利]索引构建方法、装置、计算机设备和存储介质有效
| 申请号: | 202110720858.5 | 申请日: | 2021-06-28 |
| 公开(公告)号: | CN113449153B | 公开(公告)日: | 2023-09-26 |
| 发明(设计)人: | 李肯立;曾源远;周旭;刘楚波;肖国庆;段明星;廖清 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 黄恕 |
| 地址: | 410013 *** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 索引 构建 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种索引构建方法、装置、计算机设备和存储介质。所述方法包括:获取DAG图和DAG图的分区结果,将DAG图按照分区结果存储至预设分布式图计算系统,得到各DAG分区的图数据结构,对各DAG分区中的顶点进行排序,并行构建各DAG分区的内部点的2‑hop索引和边界点的2‑hop索引,重构各DAG分区的边界点的之间路径,根据各DAG分区的图数据结构和各DAG分区的边界点之间的路径,构建边界图,再基于边界图重构边界点的2‑hop索引,并将重构后的边界点的2‑hop索引划分至各边界点所在的DAG分区。采用本方法构建的索引进行分布式批量可达性查询,能够提高查询效率。
技术领域
本申请涉及计算机分布式图计算技术领域,特别是涉及一种索引构建方法、装置、计算机设备和存储介质。
背景技术
随着图数据的规模的爆炸式增长,单个计算节点已经难以满足批量可达性查询的效率和内存需求。为了解决上述问题,有必要设计适合于分布式多机计算环境下的图计算技术。
在分布式计算环境下,图数据需要被划分成多个部分,继而被存储到不同的计算节点上。现有的最先进方法主要是计算了一个边界图索引来优化分布式批量可达性查询。通过在每个计算节点上都部署边界图索引,该方法可以有效地减少所有不同计算节点之间的消息交换次数,继而降低通信开销。
然而,上述的方法,通信开销极大,在查询过程中只能执行单向搜索,继而无法充分发挥并行计算的性能。综上所述,现有的分布式批量可达性查询的方法存在查询效率不高的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高查询效率的索引构建方法、装置、计算机设备和存储介质。
一种索引构建方法,所述方法包括:
获取DAG(Directed Acyclic Graph,有向无环图)图以及DAG图的分区结果,将DAG图按照分区结果存储至预设分布式图计算系统,得到各DAG分区的图数据结构;
对各DAG分区中的顶点进行排序,得到各顶点的排序值;
根据各DAG分区的图数据结构、顶点的排序值以及预设分布式图计算系统的计算模型,并行构建各DAG分区的内部点的2-hop索引和边界点的2-hop索引;
基于边界点的2-hop索引,重构各DAG分区的边界点之间的路径;
根据各DAG分区的图数据结构和各DAG分区的边界点之间的路径,构建边界图;
基于边界图,重构边界点的2-hop索引、并将重构后的边界点的2-hop索引划分至各边界点所在的DAG分区。
在一个实施例中,DAG图的分区结果基于以下方式得到:
获取初始图数据和计算节点数量;
将初始图数据转换为DAG图;
根据计算节点数量和预设分区算法,获取DAG图的分区结果。
在一个实施例中,图数据结构包括顶点的度值和身份编号;对各DAG分区中的顶点进行排序,得到各顶点的排序值包括:
确定各DAG分区中顶点的顶点类型;
根据顶点类型、度值以及身份编号,对各DAG分区中的顶点进行排序,得到各顶点的排序值。
在一个实施例中,根据顶点类型、度值以及身份编号,对各DAG分区中的顶点进行排序,得到各顶点的排序值包括:
根据顶点类型、度值以及身份编号,按照预设的由顶点类型、度值以及身份编号构成的优先级顺序,对各DAG分区中的顶点进行排序,得到各顶点的排序值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110720858.5/2.html,转载请声明来源钻瓜专利网。





