[发明专利]一种网页爬虫系统及方法无效
| 申请号: | 201010189998.6 | 申请日: | 2010-05-25 |
| 公开(公告)号: | CN102262635A | 公开(公告)日: | 2011-11-30 |
| 发明(设计)人: | 肖小剑;李天武 | 申请(专利权)人: | 北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 栗若木;王漪 |
| 地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网页 爬虫 系统 方法 | ||
技术领域
本发明涉及网页搜索技术,尤其涉及一种网页爬虫系统及方法。
背景技术
网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网(internet)上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的统一资源定位符(URL)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列并继续进行分析,如此周而复始,直到遍历完整个互联网后者满足系统的一定停止条件时停止。
从爬虫的应用范围而言,主要应用在搜索引擎如谷歌(Google),百度以及细分的专业搜索引擎(如工作搜索引擎等),另外就是应用在病毒样本的收集,以及网络安全的监测,云安全等方面。
根据网页中是否含有浏览器端执行的脚本,可以将网页分为动态页面和静态页面。静态页面中的URL直接以超文本标记语言(HTML)超链接的方式嵌在HTML文件中,一般将这种URL称为静态URL(或静态链接),而动态页面中除了静态URL,还含有大量必须通过执行浏览器端脚本才能得到的动态URL(或动态链接)。目前internet上占统治地位的浏览器端脚本语言是JavaScript语言。
一般将只能够提取静态URL的爬虫叫做静态爬虫,而能够提取动态URL的爬虫叫做动态爬虫。
通过分析页面文件的HTML超链接标记,静态URL能够比较容易地提取出来。对于动态URL,在页面文件里的实际上只是一段段的脚本代码,可能根本就没有HTML标记,因此通过分析超链接标记的方法是得不到相应的URL的,这就是静态爬虫的最大的不足,即静态爬虫不能得到动态URL。
有鉴于此,有待于提出一种网络爬虫技术,以有效提取动态URL。
发明内容
本发明所要解决的技术问题是需要提供一种网页爬虫系统及方法,解决现有技术中不能有效提取动态URL的技术缺陷。
为了解决上述技术问题,本发明提供了一种网页爬虫方法,包括:
设置一第一去重队列;
接收一目标页面;
采用静态爬虫对该目标页面进行爬行;
将该目标页面中该静态爬虫分析不了的统一资源定位符(URL)作为动态URL;
将该动态URL提交到该第一去重队列;
采用动态爬虫继续对该第一去重队列中的动态URL进行爬行。
优选地,设置该第一去重队列时,进一步设置一第二去重队列;
采用静态爬虫对该目标页面进行爬行时,进一步获得该目标页面中的静态URL;
进一步将该静态URL提交到该第二去重队列;
进一步采用静态爬虫进一步对该第二去重队列中的静态URL进行爬行。
优选地,采用动态爬虫继续对该第一去重队列中的动态URL进行爬行的步骤,包括:获得动态URL提交到该第一去重队列,获得静态URL提交到该第二去重队列;采用静态爬虫继续对该第二去重队列中的静态URL进行爬行的步骤,包括:获得动态URL提交到该第一去重队列;获得静态URL提交到该第二去重队列。
优选地,该方法进一步包括:
该第一去重队列中的动态URL和该第二去重队列中的静态URL均爬行完毕时,或者根据一停止条件停止爬行。
优选地,设置该第一去重队列和该第二去重队列的步骤,包括:
通过数据库或者内存链表结构设置该第一去重队列和该第二去重队列。
为了解决上述技术问题,本发明还提供了一种网页爬虫系统,包括:
设置模块,用于设置一第一去重队列;
接收模块,用于接收一目标页面;
静态爬虫模块,用于采用静态爬虫对该目标页面进行爬行;
动态爬虫模块,用于将该目标页面中该静态爬虫分析不了的统一资源定位符(URL)作为动态URL,还用于采用动态爬虫继续对该第一去重队列中的动态URL进行爬行;
提交模块,用于将该动态URL提交到该第一去重队列。
优选地,该设置模块进一步用于设置一第二去重队列;
该静态爬虫模块进一步用于采用静态爬虫对该目标页面进行爬行时,获得该目标页面中的静态URL,并用于采用静态爬虫进一步对该第二去重队列中的静态URL进行爬行;
该提交模块进一步用于将该静态URL提交到该第二去重队列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司,未经北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010189998.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数字电视接收方法及装置
- 下一篇:治疗计划的顺序优化





