[发明专利]基于混合测度的加权网络社区聚类方法在审
| 申请号: | 201510469622.3 | 申请日: | 2015-08-04 |
| 公开(公告)号: | CN105243593A | 公开(公告)日: | 2016-01-13 |
| 发明(设计)人: | 刘瑶;刘峤;秦志光;其他发明人请求不公开姓名 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 混合 测度 加权 网络 社区 方法 | ||
技术领域
本发明涉及数据挖掘和复杂网络分析领域,特别涉及大规模加权社会网络中基于混合测度的社区结构检测方法。
技术背景
随着以互联网为主的社交网络的广泛应用,越来越多的人加入到社会网络中进行信息交流活动。社会网络的应用改变了人们制造、传播和使用信息的方式。同时,社会网络中用户的规模和所制造的信息也在快速增加。据BusinessInsider的报道,世界上最大的社交网站Facebook的用户数量在2014年7月25日已经突破22亿,占全球总人口的1/3。新浪微博的活跃用户数量在2014年9月30日达到1.67亿,并且每天新增的微博信息达到1亿条之多。
目前,已有许多学者使用复杂网络的理论和方法从关键成员影响力、社区发现、用户兴趣建模等不同的方向对社会网络进行了深入的研究。其中,社区发现作为社会网络研究中的一个基础性问题,不仅在社会学、生物学、电子商务等方面具有重要研究意义,在网络安全方面也具有实际应用价值。现有的信息网络是一个边界模糊、层次不清、高度分布、动态演化的复杂网络。在这种大型的复杂网络中挖掘社区结构有助于找到系统的边界区和核心区,以便在边界区域部署防火墙、防病毒软件和入侵检测系统等安全设备从而对边界内部实施隔离和保护。另外通过核心社区和骨干结点的识别,有助于控制病毒、舆情在网络中的快速传播。在犯罪组织识别方面,针对国际化恐怖主义和有组织犯罪将活动逐步转移到信息较为隐秘的网络上来,引入社区分析技术能够快速地提取社区结构,分析其上下级关系,锁定关键目标群体,这对犯罪侦查、恐怖活动预测、态势掌控等都具有重要意义。
近年来,研究者在社会网络分析方面做了大量的工作,但是大部份都是基于无权网络。无权网络中的社区划分就是将网络划分为若干个社区,使得社区内部节点之间的连接相对紧密,不同社区的节点之间的连接相对稀疏。然而现实网络如博客网络、电子邮件网络、科学家合作网络、新陈代谢网络等在本质上就是加权网络,不仅要观察两个节点之间是否有关联还要观察其关联的强度。节点之间的关系应该是个渐变有梯度的值,它不应该只有“亲密”和“不亲密”两种界定,而应该有“不亲密”、“比较亲密”、“亲密”和“非常亲密”等这样梯度化的量度方式。
现代图论技术的发展为复杂社会网络的研究带来了深远的影响。其中,与真实社会网络最相关的一个图论特征就是社区结构,也称为聚类。在计算机科学、社会学、生物学等领域都有大量的研究人员使用图论的理论和方法来进行社区结构的检测,主要包括:图分割方法,如GN(Girvan-Newman)算法;模块度最优化方法,如FastNewman算法、Luovain算法、SA(SimulatedAnnealing)算法等;标签传播方法,如LPA(LabelPropagationAlgorithm)算法、基于hubs的算法、Copra算法等;动力学方法,如FEC(FindingandExtractingCommunities)算法、Infomap算法、RN(Ronhovde-Nussinov)算法等。这些算法都是基于网络的结构信息进行社区发现,近年来一些学者开始考虑将网络节点的属性信息加入到社区发现中。Steinhaeuser等人提出了一种为边加权的NAS(nodeattributesimilarity)方法,然后将其与传统的随机游走方法结合。Dang等人将模块度函数与节点属性相似度函数进行加权求和,然后利用Luovain算法检测出社区结构。Naresh等人提出利用多个属性的相似性并通过传统的聚类方法发Twitter的社区。Deitrick等人利用用户在一段时间内发过的tweets信息来逐步提高社区发现的效果。孙怡帆等人通过基于相似度的模块度函数来挖掘微博网络中的社区结构。
在这些算法中,模块度最优化算法是当前使用最广的一种社区结构检测方法。Newman提出模块度的测度最早是为GN算法定义一个终止条件,后来迅速成为众多社区检测算法衡量社区划分质量的一个重要标准。但是模块度的定义仍然存在一些问题。一般认为,模块度值越大,所得到的划分也越好。但是模块度优化时存在着分辨率限制(resolutionlimit)和极端退化(extremedegeneraciess)问题。分辨率限制问题是指使用模块度优化的算法不能发现尺寸小于一定规模的社区。极端退化问题是指全局的模块性最大化划分常常隐藏在大量(指数级)的结构并不相似的高模块性解中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510469622.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低压开关机械性能检测装置
- 下一篇:一种线损集中器





