[发明专利]一种基于spark平台的内存迭代的重叠社区并行发现方法有效

专利信息
申请号: 201510435886.7 申请日: 2015-07-22
公开(公告)号: CN105069039B 公开(公告)日: 2018-05-18
发明(设计)人: 郭山清;鲁宗飞;崔立真;许信顺;刘士军;王昌圆;杨伯宇;陶立冬;田燕琛;李文哲 申请(专利权)人: 山东大学;济南市公安局
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 张勇
地址: 250061 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 平台 内存 重叠 社区 并行 发现 方法
【说明书】:

发明公开了一种基于spark平台的内存迭代的重叠社区并行发现方法,步骤如下:在配置有spark环境的计算集群上,通过GraphX读取原始社区网络数据,构造图实例;通过GraphX并行计算出图实例中每个顶点的邻居节点的集合,作为图实例中每个顶点的属性;将图实例的每条边初始为一个社区,根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度;寻找相似度最大的两个社区,将这两个社区合并为新的社区;更新社区相似度集合;使用分割密度公式计算此次社区划分的分割质量;判断目前社区数量是大于1还是等于1,如果等于1,就获得分割质量最大的社区划分。

技术领域

本发明用来发现网络中的社区结果,具体涉及一种基于spark平台的内存迭代的重叠社区并行发现方法。

背景技术

复杂网络是复制系统的抽象,现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析。网络中的节点表示系统中的个体,边表示个体之间的关系,如社会关系网络,电力网等。

社区是复杂网络的一个子图,同一社区内的节点与节点之间连接很紧密,而社区与社区之间的连接比较稀疏。

所谓社区发现是将图划分为多个确定数量的社区的集合。若任意两个社区的顶点集合的交集均为空,则称此集合为非重叠社区,否则称为重叠社区。

早期的社区发现算法主要是针对非重叠社区。但是在现实的很多复杂系统中是存在一个个体属于多个社区的情况,这些算法会将网络中属于多个社区的节点归结到一个社区中。所以这些算法适应范围不广。

在重叠社区发现算法中,很多算法需要通过多次计算来获得最佳的社区数,计算开销过大。通过将传统串行算法改造设计成高效并行算法,可以大幅提高效率。

可以通过hadoop MapReduce框架实现并行计算。但hadoop存在一些不足。Hadoop的MapReduce模型并不适合描述复杂的数据处理过程。其次hadoop不支持内存迭代计算。一次MapReduce过程结束将结果写到磁盘,迭代过程时,下一次输入数据需要再次从磁盘中取出数据。

Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析,Spark提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark在某些工作负载表现更优秀。Spark GraphX是Spark中用于图和图并行计算的API,跟其他分布式图计算框架相比,GraphX最大的贡献是,在Spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。

发明内容

本发明的目的就是为了解决上述问题,提供一种基于spark平台的内存迭代的重叠社区并行发现方法,它可以解决大规模数据在单机上的计算瓶颈。

为了实现上述目的,本发明采用如下技术方案:

一种基于spark平台的内存迭代的重叠社区并行发现方法,包括如下步骤:

步骤(1):在配置有spark环境的计算集群上,通过GraphX读取原始社区网络数据,构造图实例;

步骤(2):通过GraphX并行计算出图实例中每个顶点的邻居节点的集合,作为图实例中每个顶点的属性;

步骤(3):将图实例的每条边初始为一个社区,根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度;

步骤(4):寻找相似度最大的两个社区,将这两个社区合并为新的社区;

步骤(5):更新社区相似度集合;

步骤(6):使用分割密度公式计算此次社区划分的分割质量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学;济南市公安局,未经山东大学;济南市公安局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510435886.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top