[发明专利]Spark下基于标签传播的并行重叠社区发现方法在审
申请号: | 201710121328.2 | 申请日: | 2017-03-02 |
公开(公告)号: | CN106991614A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 马廷淮;岳明亮;薛羽;曹杰 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 江苏爱信律师事务所32241 | 代理人: | 唐小红 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种Spark下基于标签传播的并行社区发现方法,涉及数据挖掘领域。本发明在网络中寻找完全子图,将完全子图中的节点赋予相同的标签,以此来减少初始化阶段标签过多的缺点,提高了算法的执行效率;其次根据节点的权重计算网络中节点的传播概率,在标签选择阶段综合考虑了标签传播概率以及节点间的相似性,提高了标签选择阶段的准确度;整个算法是在Spark框架下执行的,对于海量数据具有很好的可扩展性,本发明在执行效率以及准确度都有明显的提高,社区发现的质量也有很大的提升。 | ||
搜索关键词: | spark 基于 标签 传播 并行 重叠 社区 发现 方法 | ||
【主权项】:
Spark下基于标签传播的并行重叠社区发现方法,其特征在于,包括以下步骤:步骤1)由网络数据集,设计map和reduce函数,得到节点的邻接列表,计算节点的度并降序排列;步骤2)由步骤1)得到的由节点的度降序排列的列表,依次选取节点,在网络中寻找完全子图,最终得到k个完全子图g1,g2,…gk,将每个完全子图中的节点都分配一个相同的标签,网络中剩下的节点分配一个唯一的标签;步骤3)根据步骤2)得到的完全子图,计算网络中节点的权重;首先为网络中的节点分配一个初始权重W1=1;其次计算节点与完全子图的距离,处于完全子图中的节点距离D=0,不属于完全子图并且与完全子图中节点有边相连的节点距离D=1,依次类推,计算权重W2=2D;最后计算节点自身的权重d为节点的度数,dmax为网络中节点的最大度数;综合这3个权重,计算网络中节点的权重;步骤4)根据网络中的传播特性,即越重要的节点越容易将自己的标签传播给周围的节点,由步骤3)得到的节点的权重计算节点间标签传播的概率;每个节点得到一个邻接节点概率列表;步骤5)根据步骤4)得到的节点间标签传播概率列表,结合节点间的相似度,确定节点选择的标签列表;当网络中的标签数目不再发生变化时停止迭代,此时,每个节点拥有的标签就是它们所属的社区。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710121328.2/,转载请声明来源钻瓜专利网。