[发明专利]一种面向大规模幂律分布图的分割方法在审
申请号: | 201810683562.9 | 申请日: | 2018-06-28 |
公开(公告)号: | CN109033191A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 崔焕庆;牛健;魏永山;张峰;徐强;荣炫宇 | 申请(专利权)人: | 山东科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 青岛智地领创专利代理有限公司 37252 | 代理人: | 陈海滨 |
地址: | 266590 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布图 分割 社交网络分析 网络图 分割结果 分割算法 负载均衡 社区发现 通信开销 消息传播 图计算 图结构 图数据 最小化 应用 | ||
本发明公开了一种面向大规模幂律分布图的分割方法,具体涉及图数据分割技术领域,其解决了现有的分割算法严重影响分布式图计算方法的效率的不足。该面向大规模幂律分布图的分割方法更加适应社交网络图,针对其具体的图结构特性,能够得到较好的分割结果;分割后的各子图一方面能够满足负载均衡,另一方面能够最小化通信开销,此方法能够应用于多种实际场合,比如进行社交网络分析、社区发现、知识或消息传播。
技术领域
本发明涉及图数据分割技术领域,具体涉及一种面向大规模幂律分布图的分割方法。
背景技术
随着社交网络、交通网络、通信网络等的飞速发展,图结构数据分析的重要性日益突出。同时,图结构数据的规模越来越大,分布式计算成为处理大规模图数据的有效手段。在分布式图计算中,如何对图数据进行分割,以使得各个并行计算节点之间的通信量达到最小且保障各个计算节点的负载均衡,是进行分布式图计算的基础。
目前,常用的算法有KL算法、FM算法、谱划分方法等集中式分割算法,Hash算法、BLP算法等分布式分割算法。集中式算法计算复杂度高,难以适用于分布式计算环境;而现有的分布式算法没有考虑图的特点,导致计算节点间的通信量过大。
实际上,由社交网络、交通网络、通信网络等构建的图数据,通常都是一种大规模幂律分布图,即图的顶点数和边数庞大、顶点度服从幂律分布。此时,传统的分割算法将严重影响分布式图计算算法的效率。
发明内容
本发明的目的是针对上述不足,提出了一种通过根据图的结构特性进行合理分割,实现分割后各计算节点的负载均衡,并降低分布式运算的通信开销,提高计算效率的面向大规模幂律分布图的分割方法。
本发明具体采用如下技术方案:
一种面向大规模幂律分布图的分割方法,具体包括以下步骤,
输入图G=(V,E),其中,V={v1,v2,…,vn},E={(u,v)|u∈V∧v∈V},V为图的顶点集合,E为图的边集合,D={di|di=|{u|(u,vi)∈E}|}为顶点的度的集合,di为顶点vi的度;
步骤一:对图中所有顶点按度数进行排序,使得排序之后顶点的度数满足di≥dj,i<j;
步骤二:取Vlarge={vi|di≥λ},其中λ为给定的一个顶点度的阈值,设Vlarge={u1,u2,…,um};
步骤三:假设将图分为k个子图{P1,P2,…,Pk},且m≥k,将Vlarge中的顶点ui放入Pj中,其中j=i mod k;
步骤四:对于每个分区Pj(j=1,2,…,k)中的每一个顶点v,对{u|(u,v)∈E}中的每一个顶点u,如果u尚未放入任何一个分区中,则将u放入分区Pj中;
步骤五:使用模拟退火算法对上述分区结果进行调优,具体包括:
⑤:设定温度初始值T,温度最小值Tmin,每个T值迭代次数的迭代次数L;
⑥:取l=1;
⑦:取j=1;
⑧:取i=min{a|a∈[0,k]∧i≠j};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810683562.9/2.html,转载请声明来源钻瓜专利网。