[发明专利]一种子图匹配的查询方法在审
| 申请号: | 201410812269.X | 申请日: | 2014-12-23 |
| 公开(公告)号: | CN104392010A | 公开(公告)日: | 2015-03-04 |
| 发明(设计)人: | 金福生;杨艺峰;颜震;薛野;韩翔宇 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100081 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 种子 匹配 查询 方法 | ||
技术领域
本发明涉及一种查询方法,特别涉及一种在分布式系统中处理大规模图数据的子图匹配的查询方法,属于数据库和分布式图分析处理领域。
背景技术
图模型在很多领域有重要的应用,如社交网络、Web网络、规划问题、生物信息等方面。随着计算机、网络的广泛应用,大量的图模型数据也呈现指数级的增长。2013年,facebook统计其每天新产生的数据量已达到500TB。与此同时,大多数图模型处理的方法通常复杂度远高于O(n),如,最常见的最短路方法,其最常见的方法floyd的计算复杂度是O(n^3)。在大规模的数据量下,单机处理这样的计算复杂度是远远不能接受的。也就是说,在大数据的背景下图计算问题大都要在分布式系统上进行处理。
子图匹配问题由来已久,它在图模型中有广泛的应用。比如化学分子结构中的比对问题、生物蛋白质的匹配问题,以及近年来最为广泛的社交网络中的模式匹配问题等等。但是由于子图匹配问题本身是NP问题,其问题本身复杂度高、常见方法性能差,所以在很多领域的应用中通常存在很大的效率问题。其中尤以匹配顺序、冗余的中间结果等引发的效率低下问题最为普遍。
本发明处理的子图匹配问题是在有标签(label)的图上进行的,下面给出了问题的相关定义。为了定义子图匹配问题,首先需要给出同构图的概念。
定义1同构图
给定图G(V,E,L)和G0(V0,E0,L0),这里V、V0表示节点集,E、E0表示边集,L、L0表示每个节点所属的分类(标签)。如果存在映射F:V→V0,对于L(v)=L0(F(v)),且对于则称G和G0是同构的图。
在本文中本发明统一使用u表示查询图节点,v表示数据图节点,大写字母A-Z表示节点的分类(标签/label)。
定义2子图匹配
子图匹配问题定义如下:给定数据图G(V,E,L),对于一个查询图Q(V′,E′,L′),对于数据图中的任意子图G0,若G0和Q同构,则G0为子图匹配的一个查询结果。子图匹配的目的是在数据图G中找到所有和Q同构的子图。
可以发现,对于子图匹配而言,对于大部分的查询,其查询结果都会非常的多。子图匹配问题也是经证明后属于NP的问题,也就是说即便数据图很小,对于特定的查询,全部结果的数据规模是不可接受的。为了更好的理解子图匹配问题,这里给出一些例子。例如,在有机高分子、蛋白质中寻找相似的同构子结构;在社交网络中寻找特定的模型用以数据挖掘;在程序的调用图、流程图里查找相似的模块等等。
目前对于子图匹配的方法主要可分为三类,其一是单机的方法,其方法主要思路是首先对查询图节点给出一个顺序,接下来按照顺序依次匹配,每匹配完一个节点后,根据情况递归匹配下一个查询图节点,直到能够完整匹配全部的查询图节点。对于单机方法而言其本身的方法性能良好,但是对于处理大规模的数据图存在很大的问题。即当判定特定数据边是否存在的时候,因为内存无法存储完整的数据图,需要额外的访问外存或进行网络通信,这样会造成很大的额外资源开销。
另一种方法是分布式方法,其中微软提出的方法主要思路是首先将查询图拆分成由一个父节点和若干子节点的“小枝”结构,然后在分布式的环境下对每个小枝进行匹配,得到结果后进行网络通信,之后对中间结果进行类似数据库表连接的操作,最后得到完整的匹配结果。然而对于这种方法,其普遍存在小枝的顺序问题,即不同小枝顺序会对查询效率产生很大的影响。
另外,还可以将现有的单机方法与以节点为中心的分布式计算模型相结合。即对于每个查询图节点,在每一轮的迭代中进行匹配,之后将中间结果发送给数据图节点的邻接点。但是这样的实现存在迭代次数过多、中间结果较大、额外通信判定数据边等问题。最终导致其查询结果效率较低。
发明内容
本发明是为解决现有分布式子图匹配方法查询效率较低的问题,提出了一种在分布式系统中处理大规模图数据的子图匹配的查询方法。
首先,给出本发明所使用的相关定义。
定义3查询树
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410812269.X/2.html,转载请声明来源钻瓜专利网。





