[发明专利]一种基于结构一致性的加权图聚集方法在审
| 申请号: | 201810834716.X | 申请日: | 2018-07-26 |
| 公开(公告)号: | CN109145133A | 公开(公告)日: | 2019-01-04 |
| 发明(设计)人: | 游进国;都仪敏 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/53 | 分类号: | G06F16/53;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 结点 结构一致性 加权图 时间复杂度 信息熵度量 划分结果 计算结点 理论支撑 邻接矩阵 使用信息 输出结果 数据挖掘 综合考虑 权重和 输入图 信息熵 放入 概率 聚类 权重 分组 分割 应用 | ||
本发明涉及一种基于结构一致性的加权图聚集方法,属于图聚集及数据挖掘领域。首先将输入的所有图结点随机划分k个组,并将划分结果表达为相应的邻接矩阵,其中k的值由用户来指定;其次,将各个组中的各个结点分别调至其他组中来改变结点的分组情况,并计算结点分别在k个不同组中的结构一致性;然后将结点放入结构一致性最大的一组,直至所有结点调整完毕;最后计算超边上的权重和概率,并输出结果。本发明综合考虑聚集图边上存在的概率以及权重,使得聚集图更简洁。此外,基于信息熵度量结构的一致性,使用信息理论支撑的信息熵可以对图结点进行很好分割。同时,直接在时间复杂度为O(n)的输入图上应用k‑means聚类,在处理大规模图上节省了大量的时间。
技术领域
本发明涉及一种基于结构一致性的加权图聚集方法,属于图聚集及数据挖掘领域。
背景技术
随着技术的进步,我们生成的数据量以及我们收集和整理这些数据的能力都不断增加。例如,社交媒体互动,网页浏览,产品和服务购买等日常活动产生大量数据,其分析可能会立即影响到决策过程和我们的生活。这种丰富的生成数据及其速度要求进行数据概括。随着数据的增长,图形数据应用面临着多方面的挑战:1)难以获得潜在的信息。由于事物之间存在许多交互以及事物本身的复杂性,图形数据的操作往往不能轻易的划分和并行化。真正的数据集通常包含噪声或者缺少信息。例如,社交网络,通信网络和互联网数据,很难直接访问我们需要的信息。2)空间存储的局限性。图聚集的主要目的是减少图形数据的大小,以便能够进行有效的相关分析。存储图形数据时,不仅需要存储节点,还需要存储结点之间的连接。因此,图形数据的存储需要更多的空间。3)隐私得不到保护。在大数据环境下,一些运营商为谋取利益,非法泄露用户的隐私信息。如何防止用户的隐私信息遭到泄露,同时又能对用户数据进行高效的处理和分析,图聚集成为当前研究的热点。
研究图聚集的主要思想是将图形的结点聚集成超结点,并将它们连接到超结点,超结点之间的边称之为超边,从而产生一个超图。该超图可以覆盖原始图中的几乎所有的信息。通常情况下图聚集在以下三个场景中尤为重要:(1)加速图查询和挖掘算法。(2)获取大图的洞察力或概括。(3)隐私保护。然而,在许多应用领域,图中结点之间的关系是带权重的,而且权重对于图的处理或分析是至关重要的。比如:在网页浏览中,边的权重可以表示用户浏览网页的频率,从而可以看出用户对网页的喜爱程度。加权图聚集与简单图聚集有所不同,加权图聚集是根据权重大小将关系紧密的结点划分一组,使得超点与超点之间以及超点内部的结构性一致。Yang J,Leskovec J.(<Knowledge&Information Systems>,2012,42(1):745-754)介绍了一系列加权图压缩问题的算法:蛮力贪婪算法、阈值算法、随机半贪婪算法。其中,使用了2-hop方法和随机方法寻找压缩点对。胡宝丽、游进国等(<中国科学技术大学学报>,2016(3):180-187)提出了一种加权图聚集方法,首先,使用产生点对算法CNP对输入图产生所有2-hop点对。然后,使用自底向上算法BUS_WG实现加权图的图聚集。公知的方法表明:加权图在误差率很小的情况下,可以进行有效的压缩。但在公知的方法中进行图聚集的时候只考虑了图聚集后超边的权重信息,没有考虑到图聚集后超边是否存在以及存在概率的问题。同时,公知的方法中对输入图要产生所有的2-hop点对,在处理大规模的图上空间和时间的开销比较大。
发明内容
本发明要解决的技术问题是:提供了一种基于结构一致性的加权图聚集方法,将数据挖掘中的k-means聚类算法应用到输入的加权图上,从而得到更简洁、有效的图表表示,以用于解决对大型加权图进行高效概括的问题。
本发明采用的技术方案是:本发明提供了一种基于结构一致性的加权图聚集方法,包括如下步骤:
1)将输入的所有图结点随机划分k个组,并将划分结果表达为相应的邻接矩阵,其中k的值由用户来指定;
2)将各个组中的各个结点分别调至其他组中来改变结点的分组情况,并计算结点分别在k个不同组中的结构一致性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810834716.X/2.html,转载请声明来源钻瓜专利网。





