[发明专利]用于粗化图的系统和方法有效
| 申请号: | 200710110101.4 | 申请日: | 2007-06-15 |
| 公开(公告)号: | CN101324937A | 公开(公告)日: | 2008-12-17 |
| 发明(设计)人: | 王晨;马力;潘越;朱哲敏 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06Q10/00 | 分类号: | G06Q10/00 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 李颖 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 粗化图 系统 方法 | ||
技术领域
本发明涉及图的粗化。更具体地说,本发明涉及对图进行粗化以便能够快速、准确地发现社区的系统和方法。
背景技术
在现实世界中,诸如社会网络(如银行、金融服务、保险、保健行业的网络)、生命科学网络(如蛋白质交互反应网络)、计算机网络(如万维网、因特网)等的许多数据都可以被模拟为图。而且,这些图中大多数都显示出了社区结构(即,一组顶点),其中在同一组顶点中彼此之间的连接较为稠密,而不同组顶点之间的连接则较为稀疏。通过发现这些社区而理解和分析各种网络是非常有用的。例如,就社会网络来说,大部分网络是庞大而又未知的,依靠人的认知能力是难以掌握这样的网络中的群体信息,如电信公司保留的个人通信记录可以构成一个通讯网络。通过社区检测,我们可以通过计算机预测出实际的功能群体。这些功能群体可以用来分析群体的特点和它们之间的联系,为其制定特殊的销售、广告、经营等方面的策略。数据挖掘的意义就是为了分析和预测。
以下,为了更好地理解网络和社区的关系,我们给出一个关于计算机网络的实例。对于一个包含多个网页的网络而言,每个网页可被看作一个顶点,各个网页之间的超链接可被看作边,而通过对网络中的网页进行合理的分区,则可以找到该网络中的权威社团。网络的权威社团表示的是网络中内容相同或相近的网页的集合,它可以用来帮助用户去浏览和搜索其所需要的信息,使这个过程更加的高效便捷。
随着信息技术的快速发展,许多研究人员开发了从网络中发现各种社区的不同解决方案。2004年提出的Modularity Q方法被视为评估社区结构属性的重要手段。有关Modularity Q方法的详细信息,可参见M.E.J.Newman and M.Girvan,Finding and EvaluatingCommunity Structure in Network,Physical Review E series,2004。同时,Newman等采用Modularity Q方法来评估由各种中间状态的方法发现的社区质量。但这种方法是费时的并且限于处理10000个顶点以下的社区。Modularity Q方法中的启发式算法(例如,贪心算法)分区质量较低,难以找到全局最优解,因此并不总是能对各种图进行良好的分区。
此后,又有一些新的基于谱的方法被提出(例如,参见S.Whiteand P.Smyth,A Spectral Clustering Approach To Findingcommunities in Graphs.Proceedings of the SIAM InternationalConference on Data Mining,Newport Beach,2005以及M.E.J.Newman,Modularity and Community Structure in Networks,PNAS.0601602103,2006),以便提升检测到的社区的质量。但是,在这些新的方法中,大型矩阵计算以及降阶近似非常耗费时间和空间。尽管它们相比于Modularity Q方法更为有效,但是仍然不能解决在大图情况下存在的瓶颈问题。
由此可见,面对数据大小不断增长的当前趋势,不可避免地需要设计一种能够高质量、快速地发现社区的可缩放系统和方法。
发明内容
考虑到现有技术存在的上述问题,本发明提出了一种可缩放的系统和方法,其使用多层框架(multilevel paradigm)来快速和准确地粗化图(graph),所述粗化的图能够容易地被细化为高质量社区。
根据本发明的第一方面,提供一种用于对图进行粗化的方法,所述图包括多个顶点,所述方法包括:a)对一个当前顶点计算所述当前顶点与其各邻接顶点间的合并模块性增益值;b)计算所述当前顶点与其各邻接顶点间的相似性值;c)基于计算的合并模块性增益值和相似性值,确定所述当前顶点是否可与其邻接顶点合并,并且在确定可 合并时进行合并。
根据本发明的第二方面,提供一种用于对图进行粗化的系统,所述图包括多个顶点,所述系统包括:初始粗化装置,用于对一个当前顶点计算所述当前顶点与其各邻接顶点间的合并模块性增益值;偏差调整装置,计算所述当前顶点与其各邻接顶点间的相似性值;其中所述系统基于计算的合并模块性增益值和相似性值,确定所述当前顶点是否可与其邻接顶点合并,并且在确定可合并时进行合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710110101.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:停车惯性消除器
- 下一篇:在高温下且用外部能源的生物质和有机废物的气化设备
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





