[发明专利]网页爬虫抓取规则替换方法、调度端和抓取端有效
| 申请号: | 201310471399.7 | 申请日: | 2013-10-10 | 
| 公开(公告)号: | CN103488795B | 公开(公告)日: | 2016-11-09 | 
| 发明(设计)人: | 廖耀华;黎小为 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 北京邦信阳专利商标代理有限公司 11012 | 代理人: | 王昭林;金玺 | 
| 地址: | 100080 北京*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | 本发明公开一种网页爬虫抓取规则替换方法、调度端和抓取端。其中,网页爬虫抓取规则替换方法包括:向抓取网络信息的抓取端发送抓取任务,所述抓取任务包括待抓取网站,以及与所述待抓取网站对应的调度端抓取规则文件的调度端版本号;向所述抓取端发送待切换规则文件和所述待切换规则网站,所述待切换规则文件用于所述抓取端将保存在所述抓取端与所述待切换规则网站对应的抓取端抓取规则文件,替换为所述待切换规则文件。本发明在抓取端将抓取规则采用了规则文件独立保存,替换时只需要替换规则文件而无需整个抓取端进行重启。同时,采用了调度端对所有的规则文件进行统一管理保存,因此,无需对每个抓取端单独上传规则文件,避免管理混乱。 | ||
| 搜索关键词: | 网页 爬虫 抓取 规则 替换 方法 调度 | ||
【主权项】:
                一种网页爬虫抓取规则替换方法,其特征在于,包括:向抓取网络信息的抓取端发送抓取任务,所述抓取任务包括待抓取网站,以及与所述待抓取网站对应的调度端抓取规则文件的调度端版本号;接收到所述抓取端发送的包括待切换规则网站以及待切换规则版本号的获取新规则文件请求,则向所述抓取端发送待切换规则文件和所述待切换规则网站,所述待切换规则文件为保存在规则文件库中且由所述待切换规则网站以及所述待切换规则版本号共同标识的调度端抓取规则文件;所述抓取任务用于所述抓取端获取保存在所述抓取端与所述待抓取网站对应的抓取端抓取规则文件的抓取端版本号,比较所述抓取端版本号与所述调度端版本号,如果所述抓取端版本号与所述调度端版本号不一致,则将所述待抓取网站作为待切换规则网站,将所述调度端版本号作为待切换规则版本号,并返回所述获取新规则文件请求,否则不返回所述获取新规则文件请求,对所述待抓取网站采用所述抓取端抓取规则文件抓取网络信息;所述待切换规则文件用于所述抓取端将保存在所述抓取端与所述待切换规则网站对应的抓取端抓取规则文件,替换为所述待切换规则文件。
            
                    下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
                
                
            该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310471399.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于SVM的用电异常检测方法
 - 下一篇:一种调节网页展示效果的方法及系统
 





