[发明专利]一种基于子图生长的图分割方法在审
申请号: | 201910235223.9 | 申请日: | 2019-03-27 |
公开(公告)号: | CN109960739A | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 杨飞 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/51 | 分类号: | G06F16/51 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生长 图分割 种子选取 时间复杂度 分割结果 分析算法 种子扩展 图结构 分配 算法 分区 保证 | ||
本发明公开了一种基于顶点排名和子图生长的图分割方法,包括顶点排名,种子选取与分配,子图生长三个部分。该方法通过利用连接分析算法进行顶点排名来确定图中顶点的重要性,通过种子选取与分配来从顶点排名选择合适的生长起点,并在最后通过生长算法将种子扩展为完整的子图分区进而完成图分割。该方法具有较低的时间复杂度,同时能够保证一定的分割结果内部的图结构完整性。
技术领域
本发明为一种基于子图生长的图分割方法,属于计算机科领域。
背景技术
图结构是计算机科学中众多的数据结构之一。图是由顶点的有穷非空集合和顶点之间边的集合组成,通常表示为:G(V,E),其中,G表示一个图,V是图G中顶点的集合,E是图G中边的集合。图按照边是否具有方向性可以分为有向图和无向图。图结构被使用在众多的领域,可以灵活的表示大量的实体间的广泛连接以及这些连接的属性。图结构在知识图谱,网页链接分析以及社交网络中均由大量的应用。但随着计算机技术在生产和生活中的不断普及和深入,社会中的活动所产生的大量数据已经超出以往单台计算机系统所能处理的极限。许多的以图的形式表示的数据集的体量也不断地增长,并发生了这样的问题,因此通过分布式平台并行地处理这些数据成为必须。要在分布式地系统中处理图相关的问题,首先需要将图划分为若干个分区,然后才能进行接下来的操作。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于顶点排名和子图生长的图分割方法。解决了现有图分割方法时间复杂度较高和分割结果碎片化的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
首先,通过链接分析的方法对图中的顶点进行排序,得到一个按照重要程度由大到小的顶点序列。以该序列为依据,选出其中排名靠前的一部分顶点作为种子顶点,然后以这些顶点为核心进行子图生长。
本发明中的图分割方法采用了子图生长的方式来进行图分割,因此需要寻找这些子图的初始顶点,这些顶点将作为完整子图的“种子”。很显然,“种子”在图中的位置在很大程度上将会影响最终得到的子图结果,因此必须要筛选出合适的种子。本文在整张图上作顶点排名,并假设在排名中位置较高的顶点是更加重要的顶点,认定这些顶点更能胜任作为种子的任务。根据常用链接分析算法的特点,排名较高的顶点会是图中处在最核心位置,出入度比较高的顶点,通过对这些顶点的优先生长,将能够取得较好的分割效果。本文将从顶点排名中选取一定数量排名较高的顶点作为核心顶点,然后运用子图生长算法扩充这些顶点。
要在一张图种为定点进行排序,通常会使用链接分析算法,在常用的几种链接分析算法中,Pagerank可以应用在静态数据上,但是Pragerank需要以矩阵形式进行迭代计算,这会消耗大量的资源,不适合应用在大规模的图上。另一方面,由于原本是开发用于搜索引擎的算法,HITS以及SALSA算法在使用时需要事先通过搜索确定一个主题,然后再进行排名计算,但在本文的环境中并不具备这样的条件。而这两者中,SALSA算法在计算时不需要迭代,而HITS需要迭代,为了减小排名过程在算法运行时间中的比重,本发明最终采用了基于SALSA并作出一定改进的算法进行RDF图上的顶点排名。
完成了顶点排名之后,将采用子图生长的方式进行图分割。子图生长即以一颗或数颗种子构成的子图为起点,不断地并入子图周围的邻居,直到所有的子图占满整张原图为止。在子图生长算法种,种子的位置和选取将要并入的邻居的策略是最为重要的因素。
(三)有益效果
本发明提供了一种基于顶点排名和子图生长的图分割方法。与现有技术相比具备以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910235223.9/2.html,转载请声明来源钻瓜专利网。