[发明专利]Spark下基于标签传播的并行重叠社区发现方法在审

申请号：	201710121328.2	申请日：	2017-03-02
公开（公告）号：	CN106991614A	公开（公告）日：	2017-07-28
发明（设计）人：	马廷淮;岳明亮;薛羽;曹杰	申请（专利权）人：	南京信息工程大学
主分类号：	G06Q50/00	分类号：	G06Q50/00
代理公司：	江苏爱信律师事务所32241	代理人：	唐小红
地址：	210044 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种Spark下基于标签传播的并行社区发现方法，涉及数据挖掘领域。本发明在网络中寻找完全子图，将完全子图中的节点赋予相同的标签，以此来减少初始化阶段标签过多的缺点，提高了算法的执行效率；其次根据节点的权重计算网络中节点的传播概率，在标签选择阶段综合考虑了标签传播概率以及节点间的相似性，提高了标签选择阶段的准确度；整个算法是在Spark框架下执行的，对于海量数据具有很好的可扩展性，本发明在执行效率以及准确度都有明显的提高，社区发现的质量也有很大的提升。
搜索关键词：	spark 基于标签传播并行重叠社区发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

Spark下基于标签传播的并行重叠社区发现方法，其特征在于，包括以下步骤：步骤1)由网络数据集，设计map和reduce函数，得到节点的邻接列表，计算节点的度并降序排列；步骤2)由步骤1)得到的由节点的度降序排列的列表，依次选取节点，在网络中寻找完全子图，最终得到k个完全子图g1，g2，…gk，将每个完全子图中的节点都分配一个相同的标签，网络中剩下的节点分配一个唯一的标签；步骤3)根据步骤2)得到的完全子图，计算网络中节点的权重；首先为网络中的节点分配一个初始权重W1＝1；其次计算节点与完全子图的距离，处于完全子图中的节点距离D＝0，不属于完全子图并且与完全子图中节点有边相连的节点距离D＝1，依次类推，计算权重W2＝2D；最后计算节点自身的权重d为节点的度数，dmax为网络中节点的最大度数；综合这3个权重，计算网络中节点的权重；步骤4)根据网络中的传播特性，即越重要的节点越容易将自己的标签传播给周围的节点，由步骤3)得到的节点的权重计算节点间标签传播的概率；每个节点得到一个邻接节点概率列表；步骤5)根据步骤4)得到的节点间标签传播概率列表，结合节点间的相似度，确定节点选择的标签列表；当网络中的标签数目不再发生变化时停止迭代，此时，每个节点拥有的标签就是它们所属的社区。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京信息工程大学，未经南京信息工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710121328.2/，转载请声明来源钻瓜专利网。

上一篇：团体采购的数据处理方法和装置
下一篇：一种通过射击获得纸条的随机交友方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q50-00 专门适用于特定经营部门的系统或方法，例如公用事业或旅游
G06Q50-02 .农业；渔业；矿业
G06Q50-04 .制造业
G06Q50-06 .电力、天然气或水供应
G06Q50-08 .建筑
G06Q50-10 .服务

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]Spark下基于标签传播的并行重叠社区发现方法在审

专利文献下载