[发明专利]一种图数据处理的方法、装置及系统有效
申请号: | 201611081960.0 | 申请日: | 2016-11-30 |
公开(公告)号: | CN108132838B | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 夏应龙;徐建;夏命榛 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F16/27 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 系统 | ||
本发明公开了一种图数据处理的方法,应用于分布式系统,分布式系统包括主控节点和多个工作节点,该方法包括:主控节点获取图数据,对图数据进行分割,以得到P个分片,该P为正整数,P个分片包括第一分片和第二分片;从每个分片中确定出至少两个边集合;将P个分片中第一分片所包含的至少两个边集合调度到至少两个工作节点上以进行处理;将第二分片中包含的关联边集合调度到该至少两个工作节点上以进行处理;关联边集合是包含第一分片对应的目标顶点的出边的边集合。本发明实施例提供的图数据处理的方法,能够利用分布式系统的大量内存资源处理图数据,提高系统总体吞吐量,并且可以减少IO开销。
技术领域
本发明涉及互联网技术领域,具体涉及一种图数据处理的方法、装置及系统。
背景技术
随着互联网的高速发展,网络中的数据量呈现爆炸式增长,通过对这些海量数据进行分析可以挖掘出一些有价值的信息,以便于发现新的市场机会或商业模式。但网络中的数据量非常庞大,为了提高数据分析效率,需要对数据进行建模,即将数据通过特定的模型来表达。由于图(Graph)具有极强的模型表达能力,能够直观地表达具有相互联系的实体(Entity),及其实体之间的关系。因此,在很多大数据分析场景下,将待处理的数据以图的形式表示,然后再对图进行分析处理,以得到用户所需的信息,以图的形式表示的数据通常也被称为图数据,对图数据进行分析处理也称为图计算。其中,图的顶点(vertex)存储实体对应的值,边(edge)表示实体之间的关系。典型地,社交网络数据、CDR(call detailrecord,呼叫详细记录)、文章之间的引用关系和金融交易数据等都可以通过图(Graph)来建模。图计算已经成为大数据处理系统的基本模块。
如图1所示,图计算的应用范围广泛,例如,在电信领域、安全领域,金融领域以及其他领域都会涉及对大数据进行挖掘分析,支撑上层应用决策和运营。从海量数据中采集出各领域所需要的数据,然后以图的形式表达,最后利用数据挖掘方法,例如大规模关系计算,机器学习算法等,对图数据进行处理,进而得到各个领域有价值的数据。
由于图数据的规模增长迅速,图处理系统的全部内存可能也小于待处理的图数据的规模,从而导致图处理任务失败。同时,由于图数据依赖型强,如果每次仅加载部分图数据到内存进行处理,往往会破坏了图数据中顶点之间的邻接关系,导致数据局部性差,这种数据局部性差的特点,会使图计算过程中需要频繁从磁盘读取与当前计算的数据相关联的数据,从而造成大量的IO开销。
发明内容
为了更好地支持大规模的图计算,本发明实施例提供一种图数据处理的方法,能够利用分布式系统的大量内存资源处理图数据,保证了海量图数据的正常处理,并且还能减少系统的I/O开销。本发明实施例还提供了相应的装置及系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611081960.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式集群调度系统及方法
- 下一篇:一种资源调度方法及装置