[发明专利]基于加权轮叫算法的分布式爬虫任务调度方法有效
| 申请号: | 201410073829.4 | 申请日: | 2014-03-03 |
| 公开(公告)号: | CN103870329B | 公开(公告)日: | 2017-01-18 |
| 发明(设计)人: | 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春;邓晓栋;葛大劼 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50 |
| 代理公司: | 上海天协和诚知识产权代理事务所31216 | 代理人: | 叶凤 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 加权 算法 分布式 爬虫 任务 调度 方法 | ||
技术领域
本发明涉及网络搜索技术领域。
背景技术
一个搜索引擎可以分成爬虫、索引器、检索器和用户接口等几个部分。其中,爬虫负责对互联网中的信息不断进行查找和搜集,在搜索引擎中扮演着重要的角色。随着网络的急速发展,信息更是飞速增长,传统简单的单机网络爬虫及集中式网络爬虫的爬取能力已经不能跟上互联网上信息的增长速度。而在分布式的概念越来越多被提及的今天,分布式爬虫也自然而然成为了解决大数据量问题的方案。分布式爬虫由多个分散在广域网中部署的节点组成,能够并行的进行爬取工作,满足人们对爬虫能力的需要。由于各节点的爬取能力不同,一个良好的调度策略是必不可少的。针对不同规模的爬虫有着不同的调度算法,其中,比较主流的调度算法有:
(1)哈希调度
常见的哈希函数是一种映射关系,通过这种映射关系,将原本的字符串、数或其它信息转换为一个索引值。其实早期的爬虫系统大多都是采用的这种方式,它将URL作为哈希的输入,根据哈希函数得到的值就作为调度的输出。这样的调度策略不仅非常容易计算,而且系统开销也很小;与此同时,由于哈希函数数学上的随机性,正好保证了爬虫节点间任务分配的均匀性。
(2)集中式负载调度
以大规模改进后的北大天网爬虫为例,它是集中式控制的模式,它的总体框架是一个总控节点与若干个爬虫节点进行协同工作。其任务调度采用的调度模式是:总控节点负责分发URL,而爬虫节点负责爬取URL。每一个站点由一个爬虫程序负责,该站点上的所有URL都由该爬虫程序进行爬取。一个爬虫节点可以有多个爬虫程序,但每个爬虫程序必定在一个爬虫节点上运行。总控节点从种子URL出发进行分配,对每一个所在站点还没有启动爬虫程序的URL,会根据一定的负载平衡原则找到一个爬虫节点,将URL传输过去,并要求它开启一个新的爬虫程序。接下来所有该站点地URL都会分发到该爬虫节点,并由该爬虫程序进行爬取工作。
(3)根据网络位置进行调度
在大型的搜索引擎中,由于爬虫节点被部署在全球各地,因此网络位置的计算是相当重要的。在这样的爬虫中,其基本的调度策略的思想就是利用诸如GNP算法,通过测量较少事先确定的几组网站与爬虫节点之间的网络距离,估算其它大量的节点间的网络距离,最后利用预测得到网络距离再来计算爬虫节点爬取URL对应网页所需要时间,并将最少时间开销的爬虫节点设定为对应URL的调度对象。这样的调度方案有效地按照网络距离对爬虫任务进行了调度,而且也减少了大规模网络测量的时间开销。
发明内容
本发明提出的基于加权轮叫算法的分布式爬虫调度策略,是针对小型分布式爬虫而进行设计的,因思想与集中式负载调度策略相思,也同时适用于异构集中式爬虫,能够使各爬虫节点负载平衡,并使爬虫节点拥有灵活的可扩展性及容错性。
本发明方法技术方案表征为:
一种基于加权轮叫算法的分布式爬虫任务调度方法,其特征在于,依次按照如下步骤实施:
1)根据规模不同,本发明将网络爬虫分为单机多线程、同构集中式、异构集中式、小型分布式和大型分布式五类爬虫,本爬虫任务调度方法是针对小型分布式的爬虫任务调度方法。小型分布式爬虫是指各个节点虽然是分布式部署,但仍部署在一个小的物理区域之中,因此各节点在互联网上的网络时延相差并不大,不过各个节点间的传输并不一定在局域网环境中进行,因此传输可能是不可靠的,传输时延也必须进行考虑。
2)主从式架构部署,即一个主控节点和若干个分布式部署并且能和主控节点互通的爬虫节点,保证所有爬虫节点能够连至互联网。主控节点负责爬虫任务的调度工作,即一个待爬取的URL该分配给哪一个爬虫节点完成,以及去重工作,即将一个爬虫节点返回的一条URL得到的外链去重后当中新的待爬取的URL。爬虫节点则负责具体的爬虫工作,对每一条主控节点分配给它的URL去互联网上爬取它的整个HTML,并解析出这个页面中包含的外链,将这些信息返回给主控节点。
3)当爬虫节点第一次连接到主控节点时,主控节点给予它一个经验值作为初始权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410073829.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于太阳能电池的铟掺杂硫化铅量子点敏化剂及制备方法
- 下一篇:耐高温高压电容





