[发明专利]一种文章实时智能抓取系统和方法有效

专利信息
申请号: 201110455139.1 申请日: 2011-12-31
公开(公告)号: CN102402627A 公开(公告)日: 2012-04-04
发明(设计)人: 吴华鹏;曾明;厉锟;陈大伟 申请(专利权)人: 凤凰在线(北京)信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京锐思知识产权代理事务所(普通合伙) 11341 代理人: 李涛
地址: 100029 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文章 实时 智能 抓取 系统 方法
【说明书】:

技术领域

发明涉及互联网技术中抓取技术、web挖掘技术、信息抽取技术、自然语言处理技术领域;可以应用于需要大规模精准、实时地抓取文章的门户网站、搜索引擎网站等互联网领域。

背景技术

互联网门户类网站每天都有大量的文章转载需求,并且对文章的质量要求很高。现有很多抓取系统可以满足这个需求,但是它们都困扰于下面三个问题:

1)采用机器自动生成抽取包装器技术的抓取系统可以大量抓取文章,但是无法做到文章的精准抽取,抓取文章的可用性低;

2)采用人工生成抽取包装器技术的抓取系统文章抽取结果精准,但是要对互联网上千个网站进行抽取包装器的生成和更新维护工作,普通垂直爬虫无法很好担负这一工作,只能依赖大量的人力参与;

3)安全、高效的实时抓取技术。在要求高实时性抓取的时候,需要对抓取网站服务器频繁的发起链接和下载请求,这将会给对方服务器造成很大的压力,进而会导致对方采用封禁策略如拒绝访问等来保证服务器正常工作,这将导致抓取失败。同时高实时的抓取需求,非常耗费网络、服务器等硬件资源,导致成本上升。

以下为本发明所涉及的一些关键技术及技术术语解释。

抽取包装器:网页信息抽取是信息抽取中的一类,网页信息抽取的包装器生成技术目前发展成为一个较为独立的领域。包装器是由一系列抽取规则以及应用这些规则的计算机代码组成的,专门从特定信息源中抽取需要的信息并返回结果的程序;

基于同站学习和自动规则生成的文章自动抽取算法:本发明包含的一个包装器自动生成算法,可以精准智能的从网页中抽取出文章信息;

同站学习:按网站为单位,收集一个网站足够量的网页,一起进行机器统计学习,进而从中生成需要的规则;

爬虫(或者抓取爬虫):抓取系统中单独指负责网页下载的模块;

本系统研发的抽取包装器包括两个库:

Style树或者路径库:

Style的集合库。Style指的是某个DOM节点在DOM树中进行节点上寻,直到到body节点,构建出的这样一条路径及其权重信息。在库中,路径都以网站为单位组织,同路径合并成一条,并记录频率作为权重;

模式库:

此处所谓模式包括:

1)一个是网页抽取系统中分段后每一段的如下特征码:

模式=md5((内容:text/img)+段落tag前向遍历序列+site name)+value

其中value是权重信息,也即模式的出现次数;

2)还有一个是对这些段进行统计学习后生成的自动正则:

模式=正则。

代理技术:

代理技术是指代理服务器接收客户请求后会检查验证其合法性,如其合法,代理服务器像一台客户机一样取回所需的信息再转发给客户;

实时抓取:

强调抓取的时效性的一种抓取技术。目标是抓取源站更新内容后能够实时抓取到。

发明内容

本发明较好的解决了上述问题。

根据本发明的文章实时智能抓取系统,包括实时抓取模块、网页抽取系统、文档近似排重模块、文档自动分类模块和文章发布模块。其中所述实时抓取模块包括如下线上运行子模块:

任务提取模块,从任务(job)集合中轮流提取一个job;

任务解析模块,对每一个任务(job)进行解析,解析结果将会形成一些属性和规则;

任务抓取时间范围检验模块,查询任务的时间范围参数,如果时间范围不包含当前时间,将不抓取,跳过本job,否则,进行抓取时间间隔检验;

任务抓取时间间隔检验模块,查询任务的抓取时间间隔,如果时间间隔指定下一次抓取时间大于当前,则将不抓取,跳过本job,否则,进行任务抓取;

任务调度模块,根据任务解析模块的job其它属性进行job调度,调度时候会判断,如果这个job以往已经存在,则不分发,仍然采用本地服务器来抓取;否则,选择服务器群中现jobs数目较少的一台服务器,以实现抓取任务的均衡,从而优化总体的抓取速度;同时考虑尽量避免一台服务器上同网站job太多,以防止单台服务器对单个网站抓取压力太大;

任务下载模块,进行任务的具体下载,去代理库中取适当数目的代理,一般是5个;如果没有代理可取,则采用非代理抓取;同时将无代理和上述5个代理合并,形成代理集合;根据解析得到的任务参数,从代理集合中随机选择一个代理,进行任务的本轮下载;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凤凰在线(北京)信息技术有限公司,未经凤凰在线(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110455139.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top