[发明专利]网页筛选方法及装置有效
申请号: | 201310053601.4 | 申请日: | 2013-02-19 |
公开(公告)号: | CN103116638B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 张恒;崔世起;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 筛选 方法 装置 | ||
技术领域
本发明涉及信息检索技术领域,特别是涉及一种适用于网络爬虫系统的网页筛选方法及装置。
背景技术
作为搜索引擎重要组成的网络爬虫为一个自动提取网页的程序,其为搜索引擎从互联网上下载网页。为了满足搜索引擎快速而全面覆盖互联网有价值信息的需求,爬虫每天需要抓取大量网页。
由于互联网中存在海量的网页信息,而网络爬虫的抓取能力有限,因此,为了筛选出较高网页质量的网页,现有的网页筛选方式包括:网络爬虫在抓取一个或若干种子网页后,抽取种子网页上的URL信息,依据当前分数计算标准计算出各URL信息对应的网页质量分数,并选择网页质量分数较高的部分URL信息(网页质量分数超过某一分数阈值的URL信息,或者,URL信息的数量在网络爬虫的能力范围内)作为目标抓取网页。而在筛选出目标抓取网页后,网络爬虫抓取目标抓取网页即可。
但是,由于现有网页筛选方式着重于网页质量,可能使得某些网络站点中包括较多的目标抓取网页,导致超过网络站点对应的抓取压力;而另一些网络站点中包括较少或没有目标抓取网页。而当目标抓取网页数量超过抓取压力时,将会发生封禁或导致抓取失败。其中,所谓网络站点的抓取压力为单位时间内网络站点允许网络爬虫抓取本站点中网页的最大数量。
可见,在保证网页质量的前提下,现有网页筛选方法会带来较高的网页抓取失败风险或站点封禁风险,最终导致抓取网页的成功率较低。
发明内容
为解决上述技术问题,本发明实施例提供了一种网页筛选方法及装置,以在保证网页质量的前提下,提高抓取网页的成功率,技术方案如下:
第一方面,本发明实施例提供了一种网页筛选方法,适用于网络爬虫系统,所述方法包括:
抓取预设种子网页;
获取所述预设种子网页中所包含的URL信息;
计算所述URL信息对应的网页质量分数;
按照预设网络地址信息,将所述URL信息划分到相应的候选集合中,其中,同一候选集合的URL信息对应同一网络地址;
从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息,其中,筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数,所述预设压力配额为依据网络地址所对应的抓取压力值确定出;
将筛选出的URL信息对应的网页作为目标抓取网页。
其中,当首次抓取网页时,抓取预设种子网页包括:抓取默认导航页。
其中,当非首次抓取网页时,抓取预设种子网页包括:抓取之前所确定出的目标抓取网页。
其中,所述预设网络地址信息包括:
网页模式信息、站点信息或主域信息。
其中,从一候选集合中筛选出数量不超过相应预设压力配额的URL信息,包括:
将候选集合中URL信息按照网页质量分数进行降序排列;
将已筛选数量初始化为0;
按照降序序列,依次处理所述候选集合中的URL信息:
判断已筛选数量是否不大于预设压力配额,如果是,将当前的URL信息作为筛选出的URL信息,并将已筛选数量加1;否则,结束对所述候选集合中URL信息的筛选处理。
其中,从一候选集合中筛选出数量不超过相应预设压力配额的URL信息,包括:
判断候选集合中所包含URL信息的数量是否不超过相应预设压力配额;如果是,将所述候选集合中所包含的所有URL信息作为筛选出的URL信息;
否则,
将所述候选集合中URL信息按照网页质量分数进行降序排列;
将已筛选数量初始化为0;
按照降序序列,依次处理所述候选集合中的URL信息:
判断已筛选数量是否不大于预设压力配额,如果是,将当前的URL信息作为筛选出的URL信息,并将已筛选数量加1;否则,结束对所述候选集合中URL信息的筛选处理。
第二方面,本发明实施例还提供了一种网页筛选装置,适用于网络爬虫系统,所述网页筛选装置包括:
种子网页抓取模块,用于抓取预设种子网页;
URL信息确定模块,用于获取所述预设种子网页中所包含的URL信息;
网页质量分数确定模块,用于计算所述URL信息对应的网页质量分数;
候选集合确定模块,用于按照预设网络地址信息,将所述URL信息划分到相应的候选集合中,其中,同一候选集合的URL信息对应同一网络地址;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310053601.4/2.html,转载请声明来源钻瓜专利网。