[发明专利]Spark下基于标签传播的并行重叠社区发现方法在审
申请号: | 201710121328.2 | 申请日: | 2017-03-02 |
公开(公告)号: | CN106991614A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 马廷淮;岳明亮;薛羽;曹杰 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 江苏爱信律师事务所32241 | 代理人: | 唐小红 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | spark 基于 标签 传播 并行 重叠 社区 发现 方法 | ||
技术领域
本发明属于数据挖掘领域,具体涉及的是一种利用标签传播思想挖掘网络中社区的并行重叠社区发现方法。
背景技术
随着Internet的高速发展使得社交网络迅速进入人们的生活,导致了在线个人信息量的大量增加,并引起研究者对它的极大关注。简单的来看,社会网络所完成的就是把人们日常生活中的一部分内容转移到了网络平台中。在社会网络中,用户可以结交新的朋友,也可以交流自己的思想,分享自己遇到的趣事等等。这些个人信息囊括了他们的活动,与个人或群体之间的联系,他们发表的意见和想法随着在线社交网络的出现并快速流行开来,诸如新浪微博,微信朋友圈,Facebook,Twitter等越来越受欢迎,使得社交网络作为一个新生的产物,吸引了众多领域学者对其数据进行挖掘分析的广泛关注,包括人际关系学、行为学、化学、生物学、遗传学、计算机学等诸多领域。随着这些用户信息的急剧增加,人类社会快速步入的“大数据”时代,在面对海量数据的情况下,出现了“信息爆炸而知识匮乏”的现象。我们如何能在这些海量数据中挖掘出有用的信息或者模式对当今的研究者来说是一个巨大的挑战。19世纪90年代第一次提出知识发现(Knowledge Discovery in Databases,KDD)的概念,以韩家炜《数据挖掘:概念与技术》一书中提出的概念为例:“数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程”。数据挖掘技术通过分析海量数据以挖掘出潜在的有效的模式,是研究社交网络的一件利器。
现实中的很多系统都可以抽象为节点和边,即用节点表示实体,用边表示各个实体之间的联系,这样的节点和边就构成了一个网络。关于社交网络的研究已经持续了很长的时间。在很多网络系统,如生物学,计算机科学,工程学,生态学等中都有社区的概念。例如:在生物学领域的蛋白质交互网络中,位于同一个社区中的蛋白质通常起着相似的功能,通过把蛋白质当做节点以及他们之间的联系当做边来研究与生命活动,以了解生物构造和功能之间的关系。在信息领域的万维网中,通过社区发现,可以在不知道网页文本内容的情况下得到相关或相似主题的页面,从而改善搜索引擎的性能。在实际应用中,一个微信用户,当其在朋友圈中关注、发表、晒图等有关足球方面内容相对频繁的时候,可以会对该用户的行为进行分析,并将其划分为体育甚至更为准确的足球爱好者这一社区,那么以后就可以为该用户提供一些足球方面的商品、球赛信息,减少用户自己花时间进行搜索的同时又能实现类似于百度推广的信息推广,从而实现互利互赢。
标签传播算法基本思想是利用网络的传播特性,对网络中节点的标签信息进行传播,从而发现潜在的社区结构。首先为每个节点分配一个标签,随着标签的传播对节点标签进行更新,最后具有相同标签的节点就属于同一个社区。该算法思想简单,易于理解和操作,并且时间复杂度很低,因此得到国内外学者的关注。很多学者虽然都针对不同的问题进行优化改进,在一定程度上提高标签传播的稳定性和准确率,但是大都或多或少地带来增加计算开销等问题,并没有达到十分理想的效果。
本发明考虑网络结构中存在的完全子图中的节点在算法停止迭代的时候都会被划分在同一个社区中,因此这些节点可以在初始化阶段就划分在同一个社区中,即标注为相同的标签。综合节点间标签传播的概率,节点间的相似度,改进标签选择的方法。最后,将改进后的算法在Spark平台上实现并行化,以适应海量数据的社区发现。
发明内容
本发明所要解决的技术问题是Spark下基于标签传播的并行重叠社区发现问题。通过寻找完全子图减少初始化标签数目;综合考虑节点间标签传播概率以及节点间的相似度确定节点选择的标签;最终将其应用于Spark并行计算框架下。本发明能提高算法的准确性以及稳定性,同时在面对海量数据时能展现出良好的可扩展性。
技术方案如下:
Spark下基于标签传播的并行重叠社区发现方法,包括以下步骤:
步骤1),由网络数据集,设计map和reduce函数,得到节点的邻接列表,计算节点的度并降序排列。
步骤2),由步骤1)得到的由节点的度降序排列的列表,依次选取节点,在网络中寻找完全子图,最终得到k个完全子图g1,g2,…gk,将每个完全子图中的节点都分配一个相同的标签,网络中剩下的节点分配一个唯一的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710121328.2/2.html,转载请声明来源钻瓜专利网。