[发明专利]抓取第三方开放平台中用户动态的方法和装置有效
申请号: | 201210135768.0 | 申请日: | 2012-05-03 |
公开(公告)号: | CN102694847A | 公开(公告)日: | 2012-09-26 |
发明(设计)人: | 国兴旺 | 申请(专利权)人: | 北京新媒传信科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100089 北京市海淀区万*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 第三 开放 平台 用户 动态 方法 装置 | ||
1.一种抓取第三方开放平台中用户动态的方法,其特征在于,建立用户的用户标识和用户信息之间的对应关系,利用轮询队列存储所述用户标识,并根据所述对应关系存储所述用户信息,所述方法还包括:
对所述轮询队列进行轮询,在轮询队列中利用用户标识提取用户信息,并根据抓取调度策略和用户信息确定当前所需抓取的用户,其中,所述用户信息包括用户绑定在第三方开放平台上的授权信息;
利用当前所需抓取的用户的授权信息,通过调用第三方开放平台的应用程序接口API,在第三方开放平台抓取相应的用户动态。
2.根据权利要求1所述的方法,其特征在于,所述用户信息还包括抓取上下文信息,该抓取上下文信息包括抓取优先级、上一次抓取的动态数量、上一次抓取的时间和抓取偏移量,所述抓取偏移量指示上一次抓取的用户动态的位置;
所建立的用户标识和用户信息之间的对应关系为哈希关系。
3.根据权利要求2所述的方法,其特征在于,所述抓取调度策略包括根据用户的抓取优先级确定用户是否属于当前所需抓取的用户,所述根据抓取调度策略和用户信息确定当前所需抓取的用户包括:
当根据用户信息获知当前所轮询用户的抓取优先级为第一优先级时,确定该用户属于当前所需抓取的用户;
当根据用户信息获知当前所轮询用户的抓取优先级为第二优先级时,判断当前所轮询用户的上一次抓取的时间距离当前时刻的间隔是否大于第二时间阈值,若是,确定该用户属于当前所需抓取的用户,若否,该用户不属于当前所需抓取的用户,继续执行轮询;
当根据用户信息获知当前所轮询用户的抓取优先级为第三优先级时,判断当前所轮询用户的上一次抓取的时间距离当前时刻的间隔是否大于第三时间阈值,若是,确定该用户属于当前所需抓取的用户,若否,该用户不属于当前所需抓取的用户,继续执行轮询;
其中,所述第一优先级大于所述第二优先级,所述第二优先级大于所述第三优先级。
4.根据权利要求3所述的方法,其特征在于,通过如下方式设置抓取优先级:
当用户为刚加入轮询队列的新用户时,将该用户的抓取优先级设置为第一优先级;
当已有用户为第三方开放平台的绑定用户且为所关注开放平台的在线用户时,将该用户的抓取优先级设置为第一优先级;
当已有用户不是所关注开放平台的在线用户时,判断该用户的上一次抓取的动态数量是否大于活跃度阈值,若是,将该用户的抓取优先级设置为第二优先级,若否,将该用户的抓取优先级设置为第三优先级。
5.根据权利要求3所述的方法,其特征在于,所述对所述轮询队列进行轮询,在轮询队列中利用用户标识提取用户信息,并根据抓取调度策略和用户信息确定当前所需抓取的用户包括:
从队头开始对所述轮询队列中的用户标识进行轮询,根据当前轮询的用户标识提取用户信息,根据抓取调度策略和提取到的用户信息,确定是否需要对该用户的用户动态进行抓取,是则对该用户的用户动态进行抓取操作,并在抓取操作后将轮询后的该用户标识归还至队尾,继续从队头开始轮询;否则直接将该用户标识归还至队尾,继续从队头开始轮询。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当需要抓取多个第三方开放平台中的用户动态时,为每一个第三方开放平台的绑定用户设置一个轮询队列并为每一个第三方开放平台封装一个接口函数,所述接口函数为将第三方开放平台的应用程序接口API针对本开放平台可使用的形式封装得到的;
通过分别对各轮询队列进行轮询以及调用各接口函数,来抓取相应的用户动态。
7.一种抓取引擎装置,其特征在于,所述抓取引擎装置包括:
抓取缓存器,用于建立用户的用户标识和用户信息之间的对应关系,利用轮询队列存储所述用户标识,并根据所述对应关系存储所述用户信息;
抓取调度单元,用于对所述轮询队列进行轮询,在轮询队列中利用用户标识提取用户信息,并根据抓取调度策略和用户信息确定当前所需抓取的用户,其中,所述用户信息包括用户绑定在第三方开放平台上的授权信息;
抓取执行单元,用于利用当前所需抓取的用户的授权信息,通过调用第三方开放平台的应用程序接口API,在第三方开放平台抓取相应的用户动态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新媒传信科技有限公司,未经北京新媒传信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210135768.0/1.html,转载请声明来源钻瓜专利网。