[发明专利]时效性种子页的抓取方法及装置在审
申请号: | 201310637281.7 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103631919A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | 魏少俊 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市浩天知识产权代理事务所 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时效性 种子 抓取 方法 装置 | ||
1.一种时效性种子页的抓取方法,包括:
对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子;
确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;
基于所述频率调整因子计算频率调整系数;
根据所述抓取频率以及所述频率调整系数,动态调整所述当前预设时间段的抓取频率。
2.根据权利要求1所述的方法,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子。
3.根据权利要求2所述的方法,所述对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子具体包括:
如果该次抓取发现新链接,则确定该次抓取对应的频率调整因子为大于1的第一预定值;
如果该次抓取没有发现新链接,则确定该次抓取对应的频率调整因子为小于1的第二预定值。
4.根据权利要求1所述的方法,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子。
5.根据权利要求1-4任一项所述的方法,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;
所述基于所述频率调整因子计算频率调整系数具体为:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数。
6.根据权利要求1-5任一项所述的方法,所述根据所述抓取频率以及所述频率调整系数,动态调整所述当前预设时间段的抓取频率具体为:
将所述抓取频率与所述频率调整系数的乘积作为动态调整后的所述当前预设时间段的抓取频率。
7.根据权利要求1-6任一项所述的方法,还包括:
如果所述历史预设时间段的抓取频率为无效值,则根据与所述历史预设时间段相邻的预设时间段的抓取频率和所述频率调整系数,动态调整所述当前预设时间段的抓取频率。
8.根据权利要求1-7任一项所述的方法,进一步包括基于所述动态调整后的抓取频率在所述当前预设时间段中对所述种子页进行抓取。
9.一种时效性种子页的抓取装置,包括:
获取模块,用于对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子;
抓取频率确定模块,用于确定所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;
计算模块,用于基于所述频率调整因子计算频率调整系数;
调整模块,用于根据所述抓取频率以及所述频率调整系数,动态调整所述当前预设时间段的抓取频率。
10.根据权利要求9所述的装置,所述获取模块具体用于:对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310637281.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种后浇带止水装置
- 下一篇:一种中压开关设备操作孔遮挡装置