[发明专利]一种基于MapReduce的图结构聚类算法在审
申请号: | 201710653492.8 | 申请日: | 2017-08-02 |
公开(公告)号: | CN107506789A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 李荣华;张伟鹏;毛睿;邱宇轩;李振军;陆克中;王毅;廖好 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 深圳市凯达知识产权事务所44256 | 代理人: | 刘大弯 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mapreduce 结构 算法 | ||
技术领域
本发明涉及适用于特定功能的数据处理方法,涉及信息检索及其数据库结构,尤指一种基于MapReduce的图结构聚类算法。主要用于社交网络分析,图数据管理和图数据挖掘等相关技术领域。
背景技术
数据聚类是通过分类的方法把相似的数据元素分成不同的子集(subset),让在同一个子集中的数据元素具有相似的属性,不同子集中的数据元素具有相异的属性的过程。
如今,大数据已经变得越来越普及,逐渐成为一个我们耳熟能详的概念。在大数据研究面临的众多挑战中,高性能是一个必须予以解决的问题。大数据的研究面临着来自各个层面的挑战,同时存在着很多的机遇,从利用复杂的算法和程序来从大量的数据中挖掘出关键有用的信息,到利用高性能技术和系统来及时获取有用的内容。当前,如何利用主流的系统如Hadoop来应对大数据应用挑战成了的一个热门的研究方向。
在图数据挖掘中,图聚类是一个非常基本的研究任务。图结构聚类(SCAN)是一种著名的基于密度的聚类方法。该方法不仅能够挖掘图中的聚类结构,而且还能找到图中的Hub节点以及离群节点。然后随着图数据的规模不大增大,现有的SCAN算法已经无法满足大规模图数据的需求。目前的SCAN算法优化都是针对串行的SCAN算法的剪枝优化。例如,Shiokawa等人提出了剪枝的SCAN算法SCAN++,以及Chang等人提出了pSCAN。尽管这些剪枝方法能够大幅提升SCAN算法的效率,但在大规模图上依然比较耗时,而且针对超大规模图数据依然无法处理。
发明内容
针对现有技术的缺点,本发明的目的在于提供一种基于MapReduce的图结构聚类算法。旨在简化现有技术的计算过程,减少IO的次数,进而提升算法的性能。其次,在真实的大规模图数据上实现接近线性的可扩展性。
MapReduce编程模型,是Google公司于2004年提出的能并发处理海量数据的并行编程模型。允许开发人员开发高度可扩展和容错的并行应用程序来处理分布式无共享环境中的大数据。MapReduce算法在执行时每轮涉及三个阶段:map,shuffle和reduce。假设输入数据作为一组键值对存储在分布式文件系统中,三个阶段的工作如下:
map:在这个阶段,每个机器从分布式文件系统读取一部分键值对并生成一组新的键值对在shuffle阶段[7]转移到其他机器。
shuffle:map阶段生成的键值对在所有机器上进行shuffle。在shuffle 阶段结束时,保证具有相同键值的所有键值对到达同一台机器。
reduce:每个机器将具有相同密钥的密钥值对组合在一起作为从一组新的键值对生成并存储在分布式文件系统中,以在下一轮中进行处理。
在每一轮中至少需要实现两个函数:map函数和reduce函数。map函数确定如何从生成而reduce函数决定如何从生成
在每一轮中至少需要实现两个函数:map函数和reduce函数。map函数确定如何从生成而reduce函数决定如何从生成
结构聚类的基本概念
在详细描述使用MapReduce框架对网络图数据进行结构聚类之前,如下先给出结构聚类一些基本符号的解释和定义:
定义1.顶点网络。假设ν是图中节点,令υ∈ν,那么节点υ∈ν的结构由它和它的邻居节点所构成。用N(υ)来表示N(υ)是一个点集,其中包含的节点元素是与点υ有边相连的节点,(υ,u)表示以υ为顶点的边,如果该点集中不包括点υ,那么就称N(υ) 是点υ的开邻居集合,即N(v)={u|(v,u)∈E},若是包含点υ本身,则称为闭邻居集合,即N(v)={u|(v,u)∈E}∪v。
定义2.结构相似性。用来描述有向图中任意两个节点结构相似性的符号是σ(v,u),公式化表示为:
定义3.ε邻居。给定一个节点υ,与υ节点满足一定的相似度的邻居,称为υ的ε邻居。ε是用于划分邻居与非邻居的相似度阈值。给定一个节点υ,所有满足(v,u)≥ε的节点都是υ的ε邻居。若ε=0,则图中所有的节点均互为ε邻居节点。若υ≠0则ε邻居的公式化表达是:
Ns[v]={u∈N[v]|σ(u,v)≥ε}
即υ满足是υ的ε邻居必须满足两个条件:
1)u∈N[v]
2)σ(v,u)≥ε
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710653492.8/2.html,转载请声明来源钻瓜专利网。