[发明专利]基于节点核心影响力的复杂网络聚类方法有效
| 申请号: | 201210002128.2 | 申请日: | 2012-01-05 |
| 公开(公告)号: | CN102571954A | 公开(公告)日: | 2012-07-11 |
| 发明(设计)人: | 童超;刘琳;牛建伟;彭井 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 周长琪 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 节点 核心 影响力 复杂 网络 方法 | ||
技术领域
本发明属于社区网络的数据挖掘领域,涉及一种聚类方法,具体属于一种基于节点影响力的复杂网络聚类方法。
背景技术
21世纪,人类已进入全球化时代,全球信息化网络程度不断加深,随着真实世界网络中小世界效应及无标度特性的发现,带来了对复杂网络的研究热潮。复杂网络(complex network)涉及图论、统计物理学、计算机网络研究、生态学、社会学以及经济学等领域,具有较强的跨学科特征。研究所涉及的复杂网络主要有:生命科学领域的各种网络(如细胞网络、蛋白质网络)、Internet/WWW网络、技术网络(如电力网、电子电路网络)、社会网络(如社交网络、疾病传播网络、人类关系网络、语言学网络)等。
现实世界中的众多复杂网络系统均表现出了异构性的特征。在复杂网络中,一个最重要的特征就是网络所呈现出的簇结构,大量事实研究表明,许多网络都有自己的簇结构,而不是一大批性质完全的节点随机的联系在一起。复杂网络的异构性具体体现在,具有相似类型的节点有较多的连接,而不同类型的节点连接很少。这些具有相似类型的节点和这些节点构成的边所组成的子图被称作簇。
聚类方法对研究复杂网络的簇结构起到至关重要的作用。其对分析复杂网络的拓扑结构、理解复杂网络的功能、揭示复杂网络中的隐藏规律及预测复杂网络的行为不仅有重要的理论意义,而且有广泛的应用前景。聚类方法已被应用于社区网络分析、生物网络分析、搜索引擎、空间数据聚类和图像分割等众多领域。
按照分析策略,复杂网络聚类方法主要分为基于优化的方法和启发式方法两类。早期的复杂网络聚类方法主要包括谱方法和Kernighan-Lin算法(KL算法),它们都属于基于优化的复杂网络聚类方法。谱方法早期用于解决图分割(graph partition)问题,近年来被应用到复杂网络聚类领域。谱方法采用二次型优化技术最小化预定义的“截函数”。具有最小“截”(即网间连接密度)的划分被认为是最优的网络划分。谱方法具有严密的数学理论,被广泛应用于图分割和空间点聚类等领域。但由于其对先验知识的依赖度过高及其采用的递归二分策略问题,在多网络簇复杂的网络环境下具有明显不足,不能准确地反映真实网络簇结构。
KL算法同样基于图分割思想,优化目标是极小化簇间连接与簇内连接数目之差,通过不断调整节点所属簇结构,选择并接受可以使目标函数极小化的候选解。KL算法对初始解非常敏感,在应用中同样对先验知识的依赖程度较高,在寻找最优解的过程中,往往只能得到局部最优的结果,也不能准确地反映真实复杂网络的簇结构。
2002年,格万和纽曼(M.Girvan和M.E.J.Newman)提出了基于反复识别和删除簇间连接策略的复杂网络启发式聚类算法GN算法。GN的最大缺点是计算速度慢,边介数计算的开销过大O(m×n),并且GN具有较高的时间复杂性O(m^2n),在规模较大的网络中难以发挥作用。同年,Flake等人基于最大流-最小截定理提出了启发式聚类算法Maximum Flow Community(MFC算法)。MFC算法通过计算最小截集,识别造成网络“瓶颈”的簇间连接,通过删除簇间连接,逐渐将网络分割成为以簇为单位的单元化结构。但该算法基于连接进行聚类,不适用于节点异构的网络。
2004年,纽曼(M.E.J.Newman)提出了基于局部搜索的快速复杂网络聚类算法FN算法。FN算法属于基于优化的算法,其优化目标是极大化纽曼与格万于同年提出的网络模块性评价函数(Q函数)。Q函数定义为簇内的实际连接数目与随机连接下簇内的期望连接数目之差,用来展现网络簇结构的优劣。Q值越大则网络簇结构越好。
2005年,吉莫热与阿麦拉尔(R.Guimera和L.A.N.Amaral)采用与FN算法相同的优化目标函数,提出了基于模拟退火算法(SA)的复杂网络聚类算法GA算法。该算法通过计算候选解对应的Q函数值来评价其优劣,GA算法具有找到全局最优解的能力,因此具有很好的聚类性能。
但是,基于Q函数的优化算法依然存在以下缺点:第一,基于优化思想的聚类算法所识别出的网络簇结构质量的好坏取决于优化的目标函数的选取,这就导致“有偏”的目标函数会计算出“有偏”的解。Q函数本身是有偏的目标函数,聚类精度在Q函数达到全局最大值时并非最高,此时的聚类结果并不能完全准确地刻画真实的网络划分结构;第二,随着复杂网络数据规模的激增,优化算法中目标函数计算和迭代的过程需要耗费巨大的时间和空间资源,处理数据的时间复杂度和空间复杂度不断提高,导致聚类运算消耗的时间和资源越来越多。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210002128.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:盖板
- 下一篇:一种无线和水声通信浮标





