[发明专利]一种网页爬虫系统及方法无效
| 申请号: | 201010189998.6 | 申请日: | 2010-05-25 |
| 公开(公告)号: | CN102262635A | 公开(公告)日: | 2011-11-30 |
| 发明(设计)人: | 肖小剑;李天武 | 申请(专利权)人: | 北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 栗若木;王漪 |
| 地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网页 爬虫 系统 方法 | ||
1.一种网页爬虫方法,其特征在于,包括:
设置一第一去重队列;
接收一目标页面;
采用静态爬虫对该目标页面进行爬行;
将该目标页面中该静态爬虫分析不了的统一资源定位符(URL)作为动态URL;
将该动态URL提交到该第一去重队列;
采用动态爬虫继续对该第一去重队列中的动态URL进行爬行。
2.根据权利要求1所述的方法,其特征在于:
设置该第一去重队列时,进一步设置一第二去重队列;
采用静态爬虫对该目标页面进行爬行时,进一步获得该目标页面中的静态URL;
进一步将该静态URL提交到该第二去重队列;
进一步采用静态爬虫进一步对该第二去重队列中的静态URL进行爬行。
3.根据权利要求2所述的方法,其特征在于:
采用动态爬虫继续对该第一去重队列中的动态URL进行爬行的步骤,包括:获得动态URL提交到该第一去重队列,获得静态URL提交到该第二去重队列;
采用静态爬虫继续对该第二去重队列中的静态URL进行爬行的步骤,包括:获得动态URL提交到该第一去重队列;获得静态URL提交到该第二去重队列。
4.根据权利要求2所述的方法,其特征在于,该方法进一步包括:
该第一去重队列中的动态URL和该第二去重队列中的静态URL均爬行完毕时,或者根据一停止条件停止爬行。
5.根据权利要求2或4所述的方法,其特征在于,设置该第一去重队列和该第二去重队列的步骤,包括:
通过数据库或者内存链表结构设置该第一去重队列和该第二去重队列。
6.一种网页爬虫系统,其特征在于,包括:
设置模块,用于设置一第一去重队列;
接收模块,用于接收一目标页面;
静态爬虫模块,用于采用静态爬虫对该目标页面进行爬行;
动态爬虫模块,用于将该目标页面中该静态爬虫分析不了的统一资源定位符(URL)作为动态URL,还用于采用动态爬虫继续对该第一去重队列中的动态URL进行爬行;
提交模块,用于将该动态URL提交到该第一去重队列。
7.根据权利要求6所述的系统,其特征在于:
该设置模块进一步用于设置一第二去重队列;
该静态爬虫模块进一步用于采用静态爬虫对该目标页面进行爬行时,获得该目标页面中的静态URL,并用于采用静态爬虫进一步对该第二去重队列中的静态URL进行爬行;
该提交模块进一步用于将该静态URL提交到该第二去重队列。
8.根据权利要求7所述的系统,其特征在于:
该动态爬虫模块用于采用动态爬虫继续对该第一去重队列中的动态URL进行爬行,获得动态URL提交到该第一去重队列,获得静态URL提交到该第二去重队列;
该静态爬虫模块用于采用静态爬虫继续对该第二去重队列中的静态URL进行爬行,获得动态URL提交到该第一去重队列,获得静态URL提交到该第二去重队列。
9.根据权利要求6所述的系统,其特征在于,该系统进一步包括:
停止模块,用于该第一去重队列中的动态URL和该第二去重队列中的静态URL均爬行完毕时,或者根据一停止条件停止爬行。
10.根据权利要求7或9所述的系统,其特征在于:
所述设置模块用于通过数据库或者内存链表结构设置该第一去重队列和该第二去重队列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司,未经北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010189998.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数字电视接收方法及装置
- 下一篇:治疗计划的顺序优化





