[发明专利]Spark下基于标签传播的并行重叠社区发现方法在审

专利信息
申请号: 201710121328.2 申请日: 2017-03-02
公开(公告)号: CN106991614A 公开(公告)日: 2017-07-28
发明(设计)人: 马廷淮;岳明亮;薛羽;曹杰 申请(专利权)人: 南京信息工程大学
主分类号: G06Q50/00 分类号: G06Q50/00
代理公司: 江苏爱信律师事务所32241 代理人: 唐小红
地址: 210044 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种Spark下基于标签传播的并行社区发现方法,涉及数据挖掘领域。本发明在网络中寻找完全子图,将完全子图中的节点赋予相同的标签,以此来减少初始化阶段标签过多的缺点,提高了算法的执行效率;其次根据节点的权重计算网络中节点的传播概率,在标签选择阶段综合考虑了标签传播概率以及节点间的相似性,提高了标签选择阶段的准确度;整个算法是在Spark框架下执行的,对于海量数据具有很好的可扩展性,本发明在执行效率以及准确度都有明显的提高,社区发现的质量也有很大的提升。
搜索关键词: spark 基于 标签 传播 并行 重叠 社区 发现 方法
【主权项】:
Spark下基于标签传播的并行重叠社区发现方法,其特征在于,包括以下步骤:步骤1)由网络数据集,设计map和reduce函数,得到节点的邻接列表,计算节点的度并降序排列;步骤2)由步骤1)得到的由节点的度降序排列的列表,依次选取节点,在网络中寻找完全子图,最终得到k个完全子图g1,g2,…gk,将每个完全子图中的节点都分配一个相同的标签,网络中剩下的节点分配一个唯一的标签;步骤3)根据步骤2)得到的完全子图,计算网络中节点的权重;首先为网络中的节点分配一个初始权重W1=1;其次计算节点与完全子图的距离,处于完全子图中的节点距离D=0,不属于完全子图并且与完全子图中节点有边相连的节点距离D=1,依次类推,计算权重W2=2D;最后计算节点自身的权重d为节点的度数,dmax为网络中节点的最大度数;综合这3个权重,计算网络中节点的权重;步骤4)根据网络中的传播特性,即越重要的节点越容易将自己的标签传播给周围的节点,由步骤3)得到的节点的权重计算节点间标签传播的概率;每个节点得到一个邻接节点概率列表;步骤5)根据步骤4)得到的节点间标签传播概率列表,结合节点间的相似度,确定节点选择的标签列表;当网络中的标签数目不再发生变化时停止迭代,此时,每个节点拥有的标签就是它们所属的社区。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710121328.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top