[发明专利]一种网页内容抓取方法和装置在审

专利信息
申请号: 201410562845.X 申请日: 2014-10-21
公开(公告)号: CN105589857A 公开(公告)日: 2016-05-18
发明(设计)人: 郑杰;刘永升 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 鞠永善
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 内容 抓取 方法 装置
【说明书】:

技术领域

发明涉及互联网技术领域,特别涉及一种网页内容抓取方法和装置。

背景技术

目前搜索引擎得到广泛使用,人们常常通过搜索引擎搜索内容。搜索引擎 事先从互联网服务器中抓取网页内容,将抓取得到的网页内容收录起来,然后 供用户搜索。

目前搜索引擎都使用网络爬虫从互联网服务器中抓取网页内容,网络爬虫 是一种抓取网页内容的应用。然而发明人在实现本发明时发现网络爬虫抓取网 页内容的过程比较耗时,导致抓取网页内容的效率低。

发明内容

为了使解决现有技术的问题,本发明提供了一种网页内容抓取方法和装置。 技术方案如下:

一方面,本发明提供了一种网页内容抓取方法,所述方法包括:

周期性的通过第一线程从第一调度库中找出调度时间到达的网页标识,将 所述找出的网页标识从所述第一调度库移至第二调度库中,所述第一调度库用 于存储所有待抓取网页内容的网页标识;

在抓取完网页内容时,通过第二线程从所述第二调度库中选择调度优先级 别最高的预设数值个网页标识;

根据所述选择的网页标识,抓取网页内容。

另一方面,本发明提供了一种网页内容抓取装置,所述装置包括:

第一移动模块,用于周期性的通过第一线程从第一调度库中找出调度时间 到达的网页标识,将所述找出的网页标识从所述第一调度库移至第二调度库中, 所述第一调度库用于存储所有待抓取网页内容的网页标识;

选择模块,用于在抓取完网页内容时,通过第二线程从所述第二调度库中 选择调度优先级别最高的预设数值个网页标识;

抓取模块,用于根据所述选择的网页标识,抓取网页内容。

在本发明实施例中周期性的通过第一线程从第一调度库中找出调度时间为 当前时间或者在当前时间之前的网页标识,将找出的网页标识从第一调度库移 至第二调度库中,在抓取完网页内容时,通过第二线程从第二调度库中选择调 度优先级别最高的预设数值个网页标识;根据选择的网页标识,抓取网页内容。 由于第一线程和第二线程可以同时进行,并且第二调度库中存储的网页标识的 数目较少,从第二调度库中选择网页标识比较省时,从而提高了抓取网页内容 的效率。

附图说明

图1是本发明实施例1提供的一种网页内容抓取方法流程图;

图2是本发明实施例2提供的一种网页内容抓取方法流程图;

图3-1是本发明实施例3提供的一种网页内容抓取装置结构示意图;

图3-2是本发明实施例3提供的另一种网页内容抓取装置结构示意图;

图4是本发明实施例4提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种网页内容抓取方法,参见图1,该方法包括:

步骤101:周期性的通过第一线程从第一调度库中找出调度时间到达的网页 标识,将找出的网页标识从第一调度库移至第二调度库中,第一调度库用于存 储所有待抓取网页内容的网页标识;

步骤102:在抓取完网页内容时,通过第二线程从第二调度库中选择调度优 先级别最高的预设数值个网页标识;

步骤103:根据选择的网页标识,抓取网页内容。

在本发明实施例中周期性的通过第一线程从第一调度库中找出调度时间为 当前时间或者在当前时间之前的网页标识,将找出的网页标识从第一调度库移 至第二调度库中,在抓取完网页内容时,通过第二线程从第二调度库中选择调 度优先级别最高的预设数值个网页标识;根据选择的网页标识,抓取网页内容。 由于第一线程和第二线程可以同时进行,并且第二调度库中存储的网页标识的 数目较少,从第二调度库中选择网页标识比较省时,从而提高了抓取网页内容 的效率。

实施例2

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410562845.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top