[发明专利]一种基于边聚集系数的社会网络群体划分方法在审
申请号: | 201410342707.0 | 申请日: | 2014-07-15 |
公开(公告)号: | CN105279187A | 公开(公告)日: | 2016-01-27 |
发明(设计)人: | 张贤坤;田雪 | 申请(专利权)人: | 天津科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300222 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 聚集 系数 社会 网络 群体 划分 方法 | ||
技术领域
本发明涉及社交网络技术领域,特别是一种基于边聚集系数的社会网络群体划分方法。
背景技术
如何从社会网络中挖掘出具有实用效益的信息已成为复杂网络中一个研究热点。无论在理论还是社会实用价值上都具有非常重要的意义。网络社区通常由功能相近或性质相似的网络节点组成,通过挖掘网络中的社区结构,用户可以迅速而准确的找到与自己有内在联系的相关用户,例如具有相同或相似兴趣爱好的用户等,对网络舆情监测、商业用户挖掘等领域都具有较好的应用价值。
迄今为止,人们已经提出许多社区发现方法,2002年,Girvan和Newman在PNAS上发表的论文对社会网络和生物网络中的社区结构进行研究,也就是著名的GN算法,它是社区发现技术发展过程中的一个重要里程碑、是一种非常经典的社区发现算法、是社区发现技术研究中的重要的参考模型从而拉开了网络社区结构研究的序幕。该论文首次将网络社区结构作为网络普遍具有的拓扑特征提出,并给出一种基于边介数(edgebetweenness)的分裂式层次聚类算法来识别网络的社区结构。大多数社区发现算法的基本思想都是根据某个节点的内聚性度量,递归地对网络进行合并或分裂,分解成嵌套的社区层次结构。传统的社区划分方法大致分为两类:基于图论的算法和层次聚类算法。其中基于图论的算法主要有Kemighan-Lin算法(简称为K-L算法)、基于拉普拉斯图特征值的谱平分法和派系过滤算法等,这类方法的缺点是无法界定重复迭代次数;层次聚类算法又可分为两大类:凝聚算法和分裂算法,划分依据是在网络中增加边还是去除边,增加边的是凝聚算法,而去除边的是分裂算法。典型的代表算法有Newman快速算法、GN算法等,缺点是算法复杂度高、无法界定何时停止。
可见,以上经典的算法都存在许多局限性,划分结果并不理想,而且复杂度较高,难以满足大型真实网络社区发现的要求。2007年,Raghavan等人提出了标签传播算法,有效解决了复杂度高、无法收敛的问题。标签传播算法是一种基于图的半监督学习方法,认为联系紧密的节点会拥有一个相同的标签值,其基本思路是用已标记节点的标签信息预测未标记节点的标签信息,最后标签值相同的节点被划分进一个社区。LPA具有思路简单、扩展性强、复杂度最低、速度最快等特点。标签传播算法的时间复杂度接近于线性O(m)(m为边的数目),对于较大规模的社区(106-109个节点)检测,经过5次迭代后开始收敛。另外,标签传播算法既不需要优化预定义的目标函数,也不需要关于社区的数量和规模等先验信息,对社区的大小也没有限制,因此标签传播算法已经成为当前应用较为广泛的社区发现算法之一,被大量应用在了多媒体信息分类、虚拟社区挖掘等领域中。
然而,虽然标签传播算法简单高效,但算法中的标签传播的随机性导致算法的准确度较差,划分结果不稳定,随机性较强,鲁棒性有待提高。综上所述,现有的社区发现方法在准确度和时间复杂度上都存在很大的提升空间。
发明内容
本发明的目的在于提供一种基于边聚集系数的社会网络群体划分方法,该方法有利于提高网络社区划分的精确度和稳定性能。
为实现上述目的,本发明的技术方案是:一种基于边聚集系数的社会网络群体划分方法,包括以下步骤:
步骤A:读取社交网络数据,构造以社交网络用户为节点,用户关系为边的社交网络图;
步骤B:节点标记:为每一个用户节点随机分配一个唯一的标签值,作为它所属社区的标识;
步骤C:初步社区划分:对图中的所有顶点的标签进行迭代更新。每次迭代后,节点的标签值更新为其邻接节点的标签中数量最多的标签值;
步骤D:社区划分细化:如果有多个标签值的数量同为最大值时,计算待更新节点与邻接节点之间边的边聚集系数。边聚集系数大的邻居节点标签优先被选择进行传播。经过若干次迭代后,每个用户节点邻居中的标签变化趋于稳定;
步骤E:将所有具有相同标签的节点归为一个社区。
进一步,在上述步骤B中,节点标记具体包括以下步骤:为每一个用户节点随机分配一个唯一的标签值,即Cn=Ln,Cn表示节点n所属社区,Ln表示节点n的标签值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410342707.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多端联机互动系统及其查验修改的方法
- 下一篇:一种图像处理方法和系统