[发明专利]对分布式网络爬虫进行更新的方法及装置在审
| 申请号: | 201510288091.8 | 申请日: | 2015-05-29 |
| 公开(公告)号: | CN104834550A | 公开(公告)日: | 2015-08-12 |
| 发明(设计)人: | 李强;廖耀华 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F9/445 | 分类号: | G06F9/445 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 周华霞;王丽琴 |
| 地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分布式 网络 爬虫 进行 更新 方法 装置 | ||
技术领域
本发明涉及网络信息处理技术,尤其涉及对分布式网络爬虫进行更新的方法及装置。
背景技术
随着互联网信息的爆炸式增长,出现了越来越多以获取大量信息为基础的应用软件,如搜索引擎、电子商务比价系统、舆情系统等。其中,网络爬虫是这些应用不可缺少的重要底层组成部分。而对于大数据量互联网信息,单节点爬虫的抓取无法满足现实的需求,于是分布式网络爬虫应运而生。
对于一个大型分布式网络爬虫系统,爬虫抓取节点分布在全国各个区域,且节点数量较多,为了满足爬虫抓取节点区域覆盖率和节点数量上要求,抓取节点机器并不一定都是部署在全国各区域机房的标准机器,节点机器可能是某个分公司网点的机器,也可能是某个配送站点的机器;这样做既满足覆盖率和节点数量上要求,同时也充分利用资源,减少成本。随着业务的不断发展变化,爬虫抓取节点功能并不是一成不变的,有时会对抓取节点进行一些功能扩展或者修改,比如新增某网站内容抓取,修改抓取节点程序代码等,在这种情况下,就需要将所有抓取节点的程序代码包进行升级,并重新部署。
针对以上重新部署各个抓取节点的程序代码包,现有的做法是将升级好的爬虫代码包分别发送给各个区域抓取节点的机器使用人,具体地可发送到各使用人的邮箱中;然后由各个机器使用人根据操作提示,人为手动执行对代码包的更新操作,达到爬虫功能升级的效果。
将爬虫代码包发送给各爬虫节点机器使用人,由各使用人对代码包执行更新操作,确实能达到爬虫功能升级的效果。该方法虽然可行,但它的缺点是明显的:
1.降低抓取节点功能迭代更新的效率。抓取节点数量较多,可能是几百个节点,每次迭代更新,都需要通知到每个节点机器使用人对程序包进行升级操作,沟通成本较大,同时,不能保证每个使用人接收到升级通知后,立即对爬虫抓取代码包进行升级操作,使得完成所有爬虫节点机器的升级周期很长,以致效率不高;
2.通知各个抓取节点机器使用人来对爬虫功能进行升级,必然带来人力的开销,同时各个机器使用人操作计算机知识参差不齐,增加培训成本的同时,也不能完全保证准确无误的完成爬虫抓取功能升级的要求。
综上,现有对分布式网络爬虫进行更新的方案存在人力成本高,效率低的缺陷。
发明内容
本发明提供了一种对分布式网络爬虫进行更新的方法,该方法能够实现自动对网络爬虫进行更新,降低成本,提高更新效率。
本发明提供了一种对分布式网络爬虫进行更新的装置,该装置能够实现自动对网络爬虫进行更新,降低成本,提高更新效率。
一种对分布式网络爬虫进行更新的方法,该方法包括:
从服务器获取最新版本的爬虫代码包及相应的版本号;
查找到抓取节点本地的爬虫代码包,用获取的爬虫代码包更新抓取节点本地的爬虫代码包;
将抓取节点本地的爬虫代码包的版本号更新为最新版本的版本号;
重新启动爬虫代码程序。
一种对分布式网络爬虫进行更新的装置,该装置包括检测模块、自动下载模块、自动更新模块和自启动模块;
所述检测模块,从服务器获取最新版本的爬虫代码包的版本号,发送给所述自动下载模块和自动更新模块;
所述自动下载模块,根据版本号从服务器获取最新版本的爬虫代码包,发送给所述自动更新模块;
所述自动更新模块,查找到抓取节点本地的爬虫代码包,用获取的爬虫代码包更新抓取节点本地的爬虫代码包,将抓取节点本地的爬虫代码包的版本号更新为最新版本的版本号;向所述自启动模块发送重启指令;
所述自启动模块,接收重启执行,重新启动爬虫代码程序。
从上述方案可以看出,本发明中,从服务器获取最新版本的爬虫代码包及相应的版本号;用获取的爬虫代码包更新抓取节点本地的爬虫代码包;将抓取节点本地的爬虫代码包的版本号更新为最新版本的版本号;重新启动爬虫代码程序。这样,无需基于抓取节点机器使用人进行手动操作,实现了抓取节点自动对网络爬虫进行更新,降低了成本,也提高了更新效率。
附图说明
图1为本发明对分布式网络爬虫进行更新的方法示意性流程图;
图2为本发明进行代码包上传的流程图实例;
图3为本发明进行最新版本检测的流程图实例;
图4为本发明进行自动下载更新的流程图实例;
图5为本发明进行自启动的流程图实例;
图6为本发明对分布式网络爬虫进行更新的装置结构示意图;
图7为本发明对分布式网络爬虫进行更新的应用场景示意图实例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510288091.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基站内存的控制方法和装置
- 下一篇:数据加载方法及装置





