[发明专利]自适应的社区发现方法在审
| 申请号: | 201710380516.7 | 申请日: | 2017-05-25 |
| 公开(公告)号: | CN107301423A | 公开(公告)日: | 2017-10-27 |
| 发明(设计)人: | 汪清;赵建军 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/00 |
| 代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 刘国威 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自适应 社区 发现 方法 | ||
技术领域
本发明涉及互联网、社交网路分析技术,具体讲,涉及自适应的社区发现方法。
背景技术
随着互联网技术的迅猛发展,人与人之间的联系更加紧密,人们发现形形色色的复杂网络占据了人类社会的各个角落。复杂网络越来越成为相关领域的研究热点。目前,学者们发现现实网络不仅具有小世界和无标度等特征,而且还具有社区结构特征。社区与社区之间的连接虽然较为稀疏,但是社区内部节点之间的连接却非常稠密。这种社区结构特征能够反映节点之间的局部聚集特性。由于社区内部的节点基本上都具有相似的性质或者相似的功能,因此社区结构的研究是进一步对整个复杂网络及其社区进行功能研究的基础。
目前有很多社区发现算法,如谱平分法,模块度优化算法,标签传播算法(LPA),基于信息编码的算法(Infomap),基于随机游走的算法(Walktrap)。但是上述算法并不能够发现社区内部结构。
密度峰值聚类算法,能够得到稳定的聚类结果和聚类内部结构。该算法的核心思想在聚类中心的描述上,作者认为聚类中心同时具有两个特点:本身密度大,即被密度不超过它的邻居包围;与其它密度更大的数据点之间的“距离”相对较大。由于社区发现本质上是对网络节点进行聚类,因此该算法能够应用于社区发现中,并且在发现社区的基础上,确定每个社区内部的核心节点。但是在确定数据点的密度时需要给定截断距离,截断距离的选取会直接影响聚类效果。
发明内容
为克服现有技术的不足,本发明旨在实现在整个社区划分过程中,无需额外参数,能够自适应的应用于各种网络中。同时,当节点作为源节点进行信息传递时,与其它节点的信息量无关,因此本算法易实现并行化。本发明采用的技术方案是,自适应的社区发现方法,步骤如下:
(1)首先遍历网络中的每一个节点,把每一个节点作为源节点,对其原始信息量进行扩散传递,当一个节点作为源节点时,其信息传递与其它节点信息无关;
(2)利用信息传递所获得信息量代替峰值聚类中的密度;
(3)利用信息量矩阵获得节点之间的距离矩阵;
(4)根据信息量与距离获得核心节点,并且为每一个核心节点分配一个社区号;
(5)利用核心节点扩散完成社区划分。
社交网络可表示为图G=(V,E),其中V={v1,v2,…,vn}表示网络中节点集,E={e1,e2,…,em}表示网络中边集,n表示网络中节点的个数,m表示网络中边的条数,定义网络信息量矩阵Sn×n,其中Sii表示节点i的初始信息量,Sij表示源节点i传递到节点j的信息量;
节点间信息传递遵循如下规则:
信息传递过程中,节点对于信任度不同的邻居节点所传信息量不同,信任度越大,所传递的信息量越大;
基于此定义源节点i与邻居节点j的信任度,由公式(3)至公式(6)获得信任度函数:
C(i,j)=|Ni∩Nj| (3)
T(i,j)=α(i,j)×(β(i,j)+1) (6)
其中,|C(i,j)|表示节点i与节点j的公共邻居个数,Ni表示与节点i相邻的邻居节点,Nj表示与节点j相邻的邻居节点,|E(C(i,j))|表示节点i与节点j公共邻居间的连边总数,公式(4)中,分母为源节点的邻居个数,使得T(i,j)≠T(j,i),信息量的传递不对称,度数大的节点获得的信息量大,公式(5)表示两节点公共邻居间连边总数与其最大可能的连边总数的比值,由于β(i,j)是建立在α(i,j)的基础上,因此总的信任度定义为公式(6);
信息传递步骤如下:
1)初始化所有节点的信息量为1,即信息量矩阵Sn×n为单位矩阵;
2)遍历网络中的节点,将每个节点依次作为源节点,对其初始信息量1进行扩散传递,此时并不考虑其余节点的信息量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710380516.7/2.html,转载请声明来源钻瓜专利网。





