[发明专利]一种基于社区检测的频繁子图挖掘方法在审
| 申请号: | 202210382776.9 | 申请日: | 2022-04-13 |
| 公开(公告)号: | CN114661927A | 公开(公告)日: | 2022-06-24 |
| 发明(设计)人: | 袁野;张义;马德龙;马玉亮 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F16/535 | 分类号: | G06F16/535;G06F16/55;G06F16/58;G06Q50/00 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 社区 检测 频繁 挖掘 方法 | ||
本发明提供一种基于社区检测的频繁子图挖掘方法,该方法通过获取待挖掘图数据,基于深度优先搜索算法,对子图进行并行计算,从待挖掘数据中挖掘出所有满足频繁阈值的子图集合。通过对预处理的图数据进行社区检测操作,在社区内将顶点按照顶点标签进行聚类,并从每个标签集合中抽取同比例的顶点个数,得到频繁子图挖掘的起始集合。根据起始集合展开子图扩展操作,每进行一轮扩展,将产生的候选子图进行剪枝,及时删除非频繁的子图,减少后续的无效扩展,大大提高了扩展和挖掘效率,同时在剪枝时高效进行同构检测操作,减少执行时间,进一步提高了子图挖掘效率。此外,本发明通过对比实验验证了本发明方法的高效性。
技术领域
本发明属于计算机网络技术领域,具体涉及一种基于社区检测的频繁子图挖掘方法。
背景技术
随着信息技术的高速发展,对大数据的分析和挖掘在生产生活中发挥着越来越重要的作用,然而从海量的数据中挖掘出有价值的信息仍然是一个不可忽视的挑战。在许多领域中,数据往往被建模为实体,实体的各种属性通过标签来表示,实体间的联系通过属性进行关联,从而形成了复杂的图数据结构。图作为一种通用的数据结构,方便且高效的表达各个实体的基本属性,以及实体间复杂的相互关系。随着数据量的增加,图的规模也在快速增长,结构也愈发复杂。频繁子图挖掘是图分析研究的热点之一,广泛应用在社交网络、生物信息网络、商业网络等。
频繁子图挖掘既可在图集合上执行,也可以在单个大图上执行,已有的工作大多执行在图集合上。然而,由于子图同构的计算是非确定性多项式(简称NP)问题,子图同构又是频繁子图挖掘的子问题,因而从单个大图中挖掘频繁子图的计算代价极其高昂。传统的频繁子图挖掘方法,是将所有的频繁顶点或频繁边作为子图扩展的起始集合,在挖掘过程中会产生大量重复的子图,导致高昂的计算代价和内存消耗。而减少频繁子图挖掘的起始集合规模,则能有效地减少重复子图的生成,可以在短时间内挖掘出正确的解。
目前,频繁子图挖掘的方法主要分为两种类型,一种是基于Apriori思想的方法,另一种是基于FP-growth模式增长的方法,前者采用了广度优先搜索策略,而后者则是采用了深度优先搜索策略。(1)基于Apriori方法采用了generation-and-test思想:k+1子图是由k频繁子图生成的,根据向下闭包属性(如果k+1子图的任何一个k子图是非频繁的,那么k+1子图一定也是非频繁的)进行剪枝,生成k+1频繁子图集。例如,A.Inokuchi等人在论文Anapriori-based algorithm for mining frequent substructures from graph data中提出的方法(简称AGM),在AGM方法中以递归统计为基础,挖掘出所有满足频繁阈值的频繁子图。KuramochiKarypis等人在论文An EfficientAlgorithm for Discovering FrequentSubgraphs中提出的方法(简称FSM),针对AGM方法扩展和剪枝进行了相应的改进,能有效的在小图中找到频繁子图。(2)基于FP-growth模式增长方法中,通过在所有可能的位置将k频繁子图扩展一个顶点或者一条边来生成k+1的候选子图。例如,X.Yan等人提出gSpan(graph-based
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210382776.9/2.html,转载请声明来源钻瓜专利网。





