[发明专利]网页抓取方法和网页抓取服务器有效
| 申请号: | 200710198530.1 | 申请日: | 2007-12-11 |
| 公开(公告)号: | CN101178736A | 公开(公告)日: | 2008-05-14 |
| 发明(设计)人: | 王为;纪宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京汇泽知识产权代理有限公司 | 代理人: | 张若华 |
| 地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 抓取 方法 服务器 | ||
1.一种网页抓取方法,其特征在于,包括:
A、接收网页请求;
B、判断所请求网页是否抓取过,如果是,则执行步骤C;否则,抓取该网页,结束本流程;
C、判断所请求网页的抓取间隔是否大于预设的时间阈值,如果是,则执行步骤D;否则,不抓取该网页,结束本流程;
D、查询所述网页是否有更新,如果有更新,则抓取该网页;否则,不抓取该网页。
2.根据权利要求1所述的网页抓取方法,其特征在于,该方法预先设置缓存区和该缓存区对应的时间阈值;
并且,在第一次抓取网页时,针对该网页创建一个对象存入缓存区,该对象包括该网页的标识和请求时间,并在后续步骤D中进一步以当前时间更新原有的时间;
在步骤B中,根据所请求的网页标识是否在缓存中存在来判断该网页是否抓取过;步骤C中,所述的抓取间隔为当前时间与缓存区中所述网页对象所包括时间的差值,所述时间阈值为该缓存区对应的时间阈值。
3.根据权利要求2所述的网页抓取方法,其特征在于,按照网页抓取频率的差异设置不同级别的缓存区,其中不同级缓存区对应不同的抓取间隔的时间阈值;并根据网页的抓取频率将网页的对象在不同级的缓存区中迁移。
4.根据权利要求3所述的网页抓取方法,其特征在于,
所述每一级的缓存区对应设置一个抓取频率等级值,在所述每个网页的对象中进一步设置抓取次数,该抓取次数的初始值为0;
在步骤D中,进一步包括:如果网页有更新,则将该网页对象中的抓取次数加1,如果网页没有更新,则该网页对象中的抓取次数减1;并比较该网页对象的抓取次数和该网页对象所属缓存区的抓取频率等级值,如果抓取次数大于所述抓取频率等级值,则将该网页对象移动到时间阈值更短的上一级缓存区,如果抓取次数小于所述抓取频率等级值,则将该网页对象移动到时间阈值更长的下一级缓存区。
5.根据权利要求1所述的网页抓取方法,其特征在于,步骤D所述查询所述网页是否有更新具体为:根据超文本传输协议的返回码查询判断所述网页是否有更新。
6.根据权利要求1至5任一项所述的网页抓取方法,其特征在于,所述网页为超文本标记语言网页。
7.一种网页抓取服务器,其特征在于,包括:
网页请求接收模块,用于接收网页请求;
判断模块,用于判断所请求网页是否抓取过和抓取间隔,在未抓取过时,触发抓取模块,在抓取间隔大于预设的时间间隔时触发查询模块;
查询模块,用于查询所述网页是否有更新,在有更新时触发抓取模块;
抓取模块,用于抓取网页。
8.根据权利要求7所述的网页抓取服务器,其特征在于,进一步包括缓存区,用于存储抓取网页的对象,且该缓存区具有对应的时间阈值;所述判断模块根据所述缓存区中的网页对象判断网页是否抓取过以及抓取间隔,且所述用于比较的时间阈值为该缓存区对应的时间阈值。
9.根据权利要求8所述的网页抓取服务器,其特征在于,所述缓存区有至少两级,每级缓存区对应不同的网页抓取频率和抓取间隔的时间阈值;
且所述网页抓取服务器进一步包括对象迁移模块,用于根据网页的抓取频率将网页的对象在不同级的缓存区中迁移。
10.根据权利要求7至9任一项所述的网页抓取服务器,其特征在于,所述网页为超文本标记语言网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710198530.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:位置检测的方法和装置
- 下一篇:一种多孔隙材料的等离子喷涂直接快速制造方法





