[发明专利]基于社区结构的图数据分布式存储方法及装置有效

专利信息
申请号: 201810718954.4 申请日: 2018-07-03
公开(公告)号: CN108920105B 公开(公告)日: 2020-08-04
发明(设计)人: 王朝坤;楼昀恺 申请(专利权)人: 清华大学
主分类号: G06F3/06 分类号: G06F3/06;G06F16/28
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹;李相雨
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 社区 结构 数据 分布式 存储 方法 装置
【说明书】:

发明实施例公开一种基于社区结构的图数据分布式存储方法及装置,能使联系紧密的结点的相关信息尽可能地存储在同一台机器中,减少查询和计算过程中机器间的数据请求,提升查询和计算的效率。方法包括:S1、获取待存储的图数据中包含的结点和社区间的从属关系及结点间的边信息,并基于所述结点和社区间的从属关系及结点间的边信息计算各个社区间的关联度;S2、对于每个社区,根据该社区与其它社区的关联度,按关联度的大小对所述其它社区进行排序得到该社区的关联社区列表;S3、基于所述关联社区列表将所述图数据分配给至少一台机器,根据分配结果将所述图数据存储在对应的机器中。

技术领域

本发明实施例涉及计算机领域,具体涉及一种基于社区结构的图数据分布式存储方法及装置。

背景技术

随着图数据广泛应用于生产、医疗等多个领域,如何高效存储图数据成为了一个重要的问题。对于大型的图而言,分布式的存储方案既能解决单机存储空间不足的瓶颈,也能通过多台机器同时计算提升查询和计算的效率。

现有的分布式的图数据管理系统,如Trinity、imGraph等,通过将图数据进行划分后存储到不同的机器上,来实现对大量图数据的存储。同时,在进行查询计算时可以并行地使用多台机器进行处理,能提高图上相关计算的性能。

Trinity支持有向属性图的存储,它使用对结点和边的编号进行哈希的方式对数据进行划分,根据划分结果将图数据存储到不同的机器上。每个机器上包含若干trunk结构,结点和边存储到哪个trunk中也是通过哈希的方式决定的。每个trunk使用一张记录“编号-位置-大小”信息的表记录存储在此trunk中的数据的位置和大小。

imGraph是存储有向属性图的分布式的内存图数据库。它存储的基本结构是细胞,每个细胞包含有一个标识符,每个结点及每条边各自对应一个细胞。对数据进行划分时,首先计算细胞标识符的哈希值,随后根据哈希值决定将该细胞存储到哪台机器中。

Trinity和imGraph都使用哈希的方式将图数据进行划分,没有考虑图的结构、结点间的关系等因素,联系紧密的结点的相关信息可能被分配到不同机器进行存储,导致进行一些查询和计算时(如结点二跳邻居查询),发生大量的机器间请求数据的情况,影响查询和计算的性能。

发明内容

针对现有技术存在的不足和缺陷,本发明实施例提供一种基于社区结构的图数据分布式存储方法及装置。

一方面,本发明实施例提出一种基于社区结构的图数据分布式存储方法,包括:

S1、获取待存储的图数据中包含的结点和社区间的从属关系及结点间的边信息,并基于所述结点和社区间的从属关系及结点间的边信息计算各个社区间的关联度;

S2、对于每个社区,根据该社区与其它社区的关联度,按关联度的大小对所述其它社区进行排序得到该社区的关联社区列表;

S3、基于所述关联社区列表将所述图数据分配给至少一台机器,根据分配结果将所述图数据存储在对应的机器中。

另一方面,本发明实施例提出一种基于社区结构的图数据分布式存储装置,包括:

计算单元,用于获取待存储的图数据中包含的结点和社区间的从属关系及结点间的边信息,并基于所述结点和社区间的从属关系及结点间的边信息计算各个社区间的关联度;

排序单元,用于对于每个社区,根据该社区与其它社区的关联度,按关联度的大小对所述其它社区进行排序得到该社区的关联社区列表;

存储单元,用于基于所述关联社区列表将所述图数据分配给至少一台机器,根据分配结果将所述图数据存储在对应的机器中。

第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810718954.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top