[发明专利]一种跨平台统一的分布式图数据处理方法有效
申请号: | 202110491976.3 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113177034B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 黄宜华;王肇康;黎俊虹 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/901 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平台 统一 分布式 数据处理 方法 | ||
本发明公开了一种跨平台统一的分布式图数据处理方法,包括如下步骤:用户通过跨平台统一分布式图处理编程框架提供的API触发计算;用户的程序被序列化到程序文件中并上传分布式文件系统;框架启动相应分布式图处理系统的计算作业;集群中多个计算节点启动计算进程;每个计算进程下载程序文件并启动PregelX Runner进程;PregelX Runner与计算进程建立进程间通信通道,计算进程通过进程间通信通道调用用户程序进行具体的数据处理。本发明使得用户可以基于Python语言编写可跨平台执行的分布式图数据处理程序,解决了现有分布式图处理系统用户学习成本高、程序迁移代价高等易用性不足的问题。
技术领域
本发明涉及分布式数据处理领域,尤其涉及一种跨平台统一分布式图数据处理方法。
背景技术
分布式图处理系统(又称分布式图计算系统)提升了用户进行大规模图数据分析处理的能力,降低了大规模图数据分析的技术门槛,使用户只需基于系统提供的抽象编程模型和具体的编程接口表达图算法即可,而无需关心图数据的分布式存储、任务分发、网络通信、分布式故障恢复等技术细节。但现有的分布式图处理系统在易用性上仍面临不足。首先,现有分布式图处理系统缺乏统一的编程模型和编程接口,使得用户需要不断学习新的分布式图处理系统的使用方法,才可以将已有程序迁移到新系统上,带来较大的学习成本与程序迁移开销;其次,目前主流的分布式图处理系统(例如Giraph、GraphX、Gemini等)只向用户提供Java、Scala、C++等编译式程序设计语言的编程接口,并要求用户使用Hadoop、Spark、MPI等分布式计算框架提供的辅助API进行程序设计,这种要求对于日常使用Python语言的数据分析师、算法工程师而言技术门槛较高、易用性较差。
为了提升易用性,一些分布式图处理系统(例如Distributed Socialite、PGX.D、GraphFrames)等提供了基于Datalog、Green-marl、Spark SQL等领域特定语言的编程接口,但这些语言难以表达循环、分支等复杂计算逻辑,表达力不足。KDT和Piccolo系统虽然允许用户用Python语言编写图处理程序,但KDT系统无法处理顶点、边带有属性的图数据,而Piccolo系统提供的编程模型与图分析中常见的顶点、边等元素契合性较差。
而目前在Python语言环境下能够进行图数据处理的软件库主要有graph-tool、NetworkX、igraph、SNAP、scikit-network等。但这些软件库均采用单机串行实现,它们受单机内存容量的限制难以处理大规模图数据集。理论上也可以通过通用分布式数据处理系统Ray、PySpark、Dask等实现分布式图数据处理,但这些通用系统缺乏对图数据结构的封装和优化,需要用户进行大量的面向图数据的手动管理,依然具有较高的使用门槛和学习负担,易用性依然不足。
发明内容
发明目的:针对现有分布式图处理系统对于数据分析师、算法工程师等普通用户而言易用性较差的缺陷,本发明的目的是提供一种支持Python语言编程、能够使用户跨平台统一地进行分布式图数据处理的方法,使用户只需编写一次分布式图处理程序,程序可不经修改地、跨平台地在多个分布式图处理系统中执行。
技术方案:为实现上述发明目的,本发明提出了一种跨平台统一的分布式图数据处理方法,包括以下步骤:
(1)在集群的主节点安装跨平台统一分布式图处理编程框架UniGPS,所述编程框架UniGPS向用户提供Python语言的应用程序编程接口;
(2)所述编程框架UniGPS向用户提供跨平台统一分布式图处理编程模型VCProg,所述编程模型将图计算过程表达为顶点属性记录的多轮迭代更新的过程;
(3)所述编程模型VCProg以Python语言的抽象基类PregelX的形式向用户提供编程接口,所述抽象基类PregelX包括如下函数:顶点属性初始化、生成空消息、顶点程序、发送消息以及消息合并,用于描述每一轮迭代中对每个顶点属性记录的更新方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110491976.3/2.html,转载请声明来源钻瓜专利网。