[发明专利]一种广义最大度随机游走图抽样方法有效

专利信息
申请号: 201410749244.X 申请日: 2014-12-09
公开(公告)号: CN104462374B 公开(公告)日: 2018-06-05
发明(设计)人: 李荣华;邱宇轩;毛睿;秦璐;金檀;蔡涛涛 申请(专利权)人: 深圳大学
主分类号: G06F17/30 分类号: G06F17/30;G06Q50/00
代理公司: 深圳市兴科达知识产权代理有限公司 44260 代理人: 王翀
地址: 518000 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 随机游走 采集 算法 抽样算法 偏差问题 无偏估计 样本构造 样本问题 整体效率 样本点 有效地 样本 抽样 重复 平衡 网络
【说明书】:

发明公开一种广义最大度随机游走图抽样算法,在图上随机游走采集样本;根据采集得到的样本构造无偏估计;能够有效地平衡RW算法的“大偏差问题”以及MD算法的“重复样本问题”,从而提升了从网络中采集样本点的整体效率。

技术领域

本发明属于大图数据挖掘技术领域,尤其涉及一种广义最大度随 机游走图抽样方法。

背景技术

近年来,在线社交网络分析在学术界和工业界都引起了广泛关 注。在所有在线社交网络分析的相关研究中,一个最为基本的研究问 题是估计社交网络中的节点性质以及整个社交网络的拓扑特性。然 而,由于很多在线的社交网络公司,例如腾讯、新浪微博、Facebook 以及Twitter等,都没有向第三方发布其社交网络的图谱数据,并且 整个社交图谱数据的大小对于第三方来说往往都是未知的。因此,广 大从事社交网络分析的研究者和开发者都面临一个非常困难的数据 采集问题。这里的主要难点在于,如何设计和开发出一种简便的方法 来从一个“对于研究者不可见”的社交网络中提取出均匀的图节点样 本。

为了解决这一问题,目前在学术界有很多基于爬虫技术的网络抽 样方法被提出并广泛使用。可以把这些方法分为两大类:一类是基于 图遍历的方法,另一类则是基于随机游走的方法。基于图遍历的方法 主要是应用广度优先搜索(BFS,breadth-firstsearch)或者深度优 先搜索(DFS,depth-first search)采集节点。然而,这一类方法 的主要缺点是在采集节点的过程中,算法会偏向于度比较高的节点, 这显然与需要均匀的节点样本的目标不相符。并且,这一类算法对度 比较高的节点偏向多少无法从理论上刻画,因此很难纠正这一偏向, 进而无法得到均匀的节点样本。目前,这一类算法逐渐被学术界和工 业界弃用。基于随机游走的算法很好地解决了基于图遍历的算法的缺 陷,它们可以直接生成无偏的节点样本,或者生成有偏但是偏向性已 知的节点样本,故而这类算法在图采样中广受欢迎。目前有两种非常 流行的基于随机游走的图抽样算法。第一种算法是重新加权的随机游 走算法,称之为RW(re-weighted random walk)算法;第二种算法 是最大度随机游走算法,称之为MD(maximum-degree random walk) 算法。下面简要介绍这两种算法。

将网络抽象成一个图G=(V,E),其中n=|V|代表节点的个数,m=|E| 代表边的条数。令N(u)为节点u∈V的所有邻接节点的集合,du=|N(u)| 表示节点u的度。令f:V→R是一个定义在节点集V上的实值函数,表 示节点u的某种特性的值,例如节点的度,或者节点的某个属性值。 在估计网络特性的问题中,目标是估计整个网络中所有节点的f(u) 值的平均值,记为这里的πu=[1/n,...,1/n]表示均匀分 布。例如,如果定义f(u)=du,那么代表的是图G中节点度的平均 值。如果定义则表示的是图G中节点 的度分布,这里是一个指示函数,如果du=d,则否则

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410749244.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top