[发明专利]一种广义最大度随机游走图抽样方法有效
| 申请号: | 201410749244.X | 申请日: | 2014-12-09 |
| 公开(公告)号: | CN104462374B | 公开(公告)日: | 2018-06-05 |
| 发明(设计)人: | 李荣华;邱宇轩;毛睿;秦璐;金檀;蔡涛涛 | 申请(专利权)人: | 深圳大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
| 代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 王翀 |
| 地址: | 518000 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 随机游走 采集 算法 抽样算法 偏差问题 无偏估计 样本构造 样本问题 整体效率 样本点 有效地 样本 抽样 重复 平衡 网络 | ||
本发明公开一种广义最大度随机游走图抽样算法,在图上随机游走采集样本;根据采集得到的样本构造无偏估计;能够有效地平衡RW算法的“大偏差问题”以及MD算法的“重复样本问题”,从而提升了从网络中采集样本点的整体效率。
技术领域
本发明属于大图数据挖掘技术领域,尤其涉及一种广义最大度随 机游走图抽样方法。
背景技术
近年来,在线社交网络分析在学术界和工业界都引起了广泛关 注。在所有在线社交网络分析的相关研究中,一个最为基本的研究问 题是估计社交网络中的节点性质以及整个社交网络的拓扑特性。然 而,由于很多在线的社交网络公司,例如腾讯、新浪微博、Facebook 以及Twitter等,都没有向第三方发布其社交网络的图谱数据,并且 整个社交图谱数据的大小对于第三方来说往往都是未知的。因此,广 大从事社交网络分析的研究者和开发者都面临一个非常困难的数据 采集问题。这里的主要难点在于,如何设计和开发出一种简便的方法 来从一个“对于研究者不可见”的社交网络中提取出均匀的图节点样 本。
为了解决这一问题,目前在学术界有很多基于爬虫技术的网络抽 样方法被提出并广泛使用。可以把这些方法分为两大类:一类是基于 图遍历的方法,另一类则是基于随机游走的方法。基于图遍历的方法 主要是应用广度优先搜索(BFS,breadth-firstsearch)或者深度优 先搜索(DFS,depth-first search)采集节点。然而,这一类方法 的主要缺点是在采集节点的过程中,算法会偏向于度比较高的节点, 这显然与需要均匀的节点样本的目标不相符。并且,这一类算法对度 比较高的节点偏向多少无法从理论上刻画,因此很难纠正这一偏向, 进而无法得到均匀的节点样本。目前,这一类算法逐渐被学术界和工 业界弃用。基于随机游走的算法很好地解决了基于图遍历的算法的缺 陷,它们可以直接生成无偏的节点样本,或者生成有偏但是偏向性已 知的节点样本,故而这类算法在图采样中广受欢迎。目前有两种非常 流行的基于随机游走的图抽样算法。第一种算法是重新加权的随机游 走算法,称之为RW(re-weighted random walk)算法;第二种算法 是最大度随机游走算法,称之为MD(maximum-degree random walk) 算法。下面简要介绍这两种算法。
将网络抽象成一个图G=(V,E),其中n=|V|代表节点的个数,m=|E| 代表边的条数。令N(u)为节点u∈V的所有邻接节点的集合,du=|N(u)| 表示节点u的度。令f:V→R是一个定义在节点集V上的实值函数,表 示节点u的某种特性的值,例如节点的度,或者节点的某个属性值。 在估计网络特性的问题中,目标是估计整个网络中所有节点的f(u) 值的平均值,记为这里的πu=[1/n,...,1/n]表示均匀分 布。例如,如果定义f(u)=du,那么代表的是图G中节点度的平均 值。如果定义则表示的是图G中节点 的度分布,这里是一个指示函数,如果du=d,则否则
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410749244.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种CAM文件自动下线的方法
- 下一篇:防伪方法及移动设备





