[发明专利]一种两类基于近似度分布的分层图抽样方法在审
申请号: | 201911308971.1 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111046248A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 贺樑;朱君鹏;吴雯 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/906 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 近似 分布 分层 抽样 方法 | ||
本发明公开了一种两类基于近似度分布的分层图抽样方法,其特点采用k‑means聚类算法获取图中节点的近似度分布,并给出k‑means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值,然后在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点,并根据导出子图技术获取完整抽样子图,导出子图技术能够保证抽样子图的局部完整性,最后采用常用指标评价抽样结果的准确性。本发明与现有技术相比具有快速挖掘大规模图中隐藏的有价值的信息,抽样准确度高,有效解决了抽样有偏性的问题。
技术领域
本发明涉及图数据分析和应用技术领域,尤其是一种两类基于近似度分布的分层图抽样方法。
背景技术
随着,现实世界的众多应用与前所未有的方式和速度产生并积累着大量数据,图作为一种有效描述大数据的数据结构,扮演者越来越重要的角色。在社交网络分析、推荐网络分析等研究领域,许多计算问题都能转化为一个基于图的问题,如何准确地建模并高效地分析它们,逐渐成为数据分析领域的研究热点。在图模型中,自然界的实体被抽象为点,它们之间的关系被抽样成边,如何快速且高效地分析和挖掘图数据中蕴含的大量有价值的信息成为当前图数据分析领域的研究重点。不同学科从不同角度入手均进行了有价值地分析,计算机科学的飞速发展使得图分析与挖掘的研究工作取得了巨大的进展,优秀的研究成果层出不穷。
近几年,由于大规模图分析应用领域的飞速发展,致使图数据规模急剧增长,抽样技术作为有效地数据规约方法被广泛应用,这都推动了计算机科学家对图抽样算法的研究。目前,图抽样算法大致分为三种类型:基于点选择策略的随机抽样算法、基于边选择策略的随机抽样算法和基于图拓扑结构的抽样算法。早期对图抽样算法的研究局限于静态小规模图的抽样,它们通常假设图数据规模较小,并且能够全部放入主存。直到2006年,Leskovec首次提出了针对大规模图数据的抽样算法FFS,文中首次汇总了15个常见的抽样结果度量标准,同时该文指出,在抽样过程中,基于点选择策略的抽样算法易于偏向抽取低度节点,基于边选择策略的抽样算法易于偏向抽取高度节点,基于拓扑结构的抽样算法易于偏向抽取高度节点。同时还提出将15%和20%作为最佳的抽样比例,进一步增强了图分析领域人员对图抽样算法的认识。文中还指出,有偏抽样大大降低了抽样结果准确性。2010年,Gjoka提出了MHRW算法,该算法基于Markov-chain Monte Carlo(MCMC)算法,它被证明是实现无偏性图抽样的一个较好的解决方案。2016年,Luping Yu的论文总结了现有性能较优的图抽样算法,并采用真实世界的图数据集评估了算法的抽样性能。图抽样技术不仅在理论研究方面发展迅速,而且在图抽样应用方面也有诸多成果。Rafiei提出可以在大规模图中使用抽样技术高效地实现可视化。Yanhong Wu在2016年提出图抽样的可视化观点,该文指出,抽样方法应该重视图数据集中的高度节点,即高度节点应该被作为重要的可视化因子,该文针对高度节点提出了一系列假设,并通过实验验证了假设的正确性。
现有技术在一次抽样过程中存在着抽样有偏性的问题,抽样准确度差,想要提高抽样精确度,只能通过大量重复抽样,在大数据时代,重复多次抽样显得不切实际。
发明内容
本发明的目的是针对现有技术的不足而设计的一种两类基于近似度分布的分层图抽样方法,采用k-means聚类算法获取图中节点的近似度分布,利用不同层抽样节点数阈值筛选节点,以获取抽样子图中的特征参数,并评价抽样结果的准确性。通过使用图的度分布特性,自动获得图的近似度分布,从而避免通过统计获得节点的度分布,并给出了近似度分布的计算方法,统计不同层内节点的个数,得出指定比例下某层抽取节点的阈值,在大规模图中采用基本抽样算法,实现基于近似度分布的筛选策略,从而达到调整一次抽样过程中存在的抽样有偏性问题;接着利用导出子图技术,得到相对完整的局部子图,能够快速挖掘大规模图中隐藏的有价值的信息。
本发明的目的是这样实现的:一种两类基于近似度分布的分层图抽样方法,其特点具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911308971.1/2.html,转载请声明来源钻瓜专利网。