[发明专利]一种基于Pregel的分布式图着色算法在审
| 申请号: | 201711241193.X | 申请日: | 2017-11-30 |
| 公开(公告)号: | CN107992572A | 公开(公告)日: | 2018-05-04 |
| 发明(设计)人: | 王鑫;甘瀛 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06T11/00 |
| 代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 刘子文 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 pregel 分布式 着色 算法 | ||
技术领域
本发明涉及面向大规模图数据的图着色算法领域,具体为基于Pregel的分布式图着色算法。
背景技术
近来,由于以RDF为代表的图数据量日益增加,图数据管理开始受到越来越多的关注。如何有效地对RDF图数据进行加载、存储和查询成为现在研究的一个热点问题。目前,已经有很多工作对如何有效管理RDF图数据进行了研究,并提出了很多有效的解决方案。其中DB2RDF是一种将RDF图存储到关系数据库的有效方法,但由于RDF图数据规模的不断增长,单机版本的DB2RDF的数据加载和存储方案的性能受到限制,因此需要一种分布式的加载和存储方案来提高已有方案的性能。同时,DB2RDF需要使用图着色算法进行RDF图存储模式的构建,因此使用相对应的分布式图着色算法来获得可伸展的RDF图数据装载性能成为需要解决的问题。
图着色问题是最著名的NP-完全问题之一,其的最简单形式是顶点着色问题,即为图中的每个顶点分配一个颜色,以保证任何相邻的顶点不具有相同的颜色。图着色算法可以应用于很多实际问题中,包括频道分配问题、任务调度问题、安全装箱问题等。
由于图着色问题是NP-完全问题,目前没有在多项式时间内解决这个问题的确定算法。但很多启发式的单机或者分布式算法已经被提出,其中使用了贪心策略的启发式算法是解决图着色问题的最基本和经典的算法。由于现在需要处理的数据量越来越大,单机图着色算法的性能渐渐不能满足用户的需要,因此,很多的并行图着色算法被提出,这些算法通过分布式计算使得图着色算法的效率进一步提高。然而,目前大多数分布式图着色算法是基于传统的共享内存模型,如MPI,OpenMP等。根据我们的调查,目前尚缺少相关研究工作对现有的分布式图着色算法加以改进调整,适配到Pregel模型下进行算法研究与实验比较。Pregel模型具有“以顶点为中心”计算的特点,因此更适合并行图计算,使用Pregel消息传递模型来进行并行图计算可以进一步提高图计算效率。
目前已有的单机图着色算法包括如下:
目前使用贪心策略的启发式算法是解决图着色问题最经典和有效的算法基于贪心策略的图着色算法首先按照一定的顺序寻找图中的所有顶点,当寻找到某一顶点,为其分配可用的最小的颜色,即这个颜色不能与当前着色点的邻居点的颜色相同。First Fit(FF)算法是一种简单的贪心着色算法,它每次从一个随机的顶点顺序中得到下一个需要着色的顶点。Largest-Degree-First-Ordering(LFO)算法在寻找下一个着色顶点时总是选择剩余顶点中度最大的点。Incidence-Degree-Ordering(IDO)算法则以邻居中已着色的顶点的数量作为是否选择的依据。Saturation-Degree-Ordering(SDO)算法选择下一顶点时的依据则是其邻居中颜色的数量。这些算法由于只适用于单机的情况,不能满足大规模图数据处理的要求,但它们仍然可以为设计图着色并行算法版本提供借鉴和参考。
目前已有的并行图着色算法包括如下:
并行启发式图着色算法都基于寻找独立集的思想。其中,Lucy提出了一个并行构造独立集的Maximal-Independent-Set(MIS)算法,其给每个顶点分配一个权重,这个权重来自一个从1到n的排序(n为顶点数量),如果一个顶点具有本地最大的权重,即它的权重大于它的所有的邻居顶点的权重,就把这个顶点加入到独立集中,然后对独立集中的顶点分配当前可用最小颜色。
Jones和Plassmann所提出的并行图着色算法与MIS算法的不同是,给每个顶点分配一个不重复的随机数作为权重和对每个独立集中的顶点分配可用的最小颜色。Largest-Degree-First(LDF)算法将度最大的顶点首先放入独立集,顶点的权值在相邻点具有相同的度时用来解决冲突。Smallest-Degree-Last(SDL)算法分为两个阶段,第一阶段根据顶点的度分配权重,第二阶段通过所得的权重来寻找独立集并着色。此外,Allwright等人对以上方法在SIMD和MIMD架构下进行了实验对比。但这些方法都基于传统的共享内存模型,而不能直接应用于Pregel消息传递模型。
Salihoglu等基于类Pregel模型对很多图算法进行了优化,提出了几种优化技术来提高类Pregel系统上图计算的效率,并且其实验显示Pregel模型可以减少大规模图数据并行计算的时间,Pregel模型以顶点计算为中心,计算由消息驱动,适用于分布式图计算。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711241193.X/2.html,转载请声明来源钻瓜专利网。





