[发明专利]一种网站内容采集方法及装置在审

专利信息
申请号: 201710564036.6 申请日: 2017-07-12
公开(公告)号: CN109274702A 公开(公告)日: 2019-01-25
发明(设计)人: 孙鑫;赵兴;乔伟 申请(专利权)人: 武汉安天信息技术有限责任公司
主分类号: H04L29/08 分类号: H04L29/08;H04L29/12;G06F16/951
代理公司: 暂无信息 代理人: 暂无信息
地址: 430000 湖北省武汉市东湖新技术开*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网站内容 采集 抓取 次数限制 单点 网站 发送 访问
【说明书】:

发明提供一种网站内容采集的方法,在满足单点IP访问次数限制的情况下,实现准确、高效的网站内容采集。包括以下步骤:获取与待采集网站对应的各CDN节点的IP地址,生成CDN地址列表;依次向CDN地址列表中的各地址发送采集请求,抓取所需数据。本发明还公开了一种网站内容采集的装置。

技术领域

本发明涉及计算机信息技术和数据采集领域,尤其涉及一种网站内容采集方法及装置。

背景技术

现有的网站内容采集技术主要应用网络爬虫自动获取网页内容。普遍采用单点采集方式,即采集者短时间内向单点发起多个进程或者发出大量请求,这样就会导致网站服务器压力增大,影响网站的正常访问,甚至可能造成服务器宕机使得网站不可用。有鉴于此,大多数网站出于降低服务器压力目的,都会限制单个IP在单位时间内的访问次数(即访问频率),若访问次数超过网站的设定值,则会禁止响应该IP的任何页面请求。如果访问次数的值设置的非常小,就会极大地限制网站采集频率,增大数据采集周期。对于数据采集者而言,这是非常棘手的问题,如何提高网站内容采集频率成为当务之急。

发明内容

本发明的目的在于提供一种能提高网站采集频率的网站内容采集方法及装置,在满足单点IP访问次数限制的情况下,实现准确、高效的网站内容采集。

本发明公开了一种网站内容采集方法,包括以下步骤:

获取与待采集网站对应的各CDN节点的IP地址,生成CDN地址列表;

依次向CDN地址列表中的各地址发送采集请求,抓取所需数据。

进一步的,获取与待采集网站对应的各CDN节点的IP地址的方法包括:收集预设区域内多个DNS服务器的IP地址,向所有的DNS服务器发送CDN域名的解析请求,收集所有返回的CDN节点的IP地址。

进一步的,向CDN地址列表中的各地址发送采集请求的方法包括:将http请求包头部的Host字段中的域名替换成为所述获取的CDN节点的IP列表中的一个IP地址,并设置对应的Host参数。

进一步的,获取与待采集网站对应的各CDN节点的IP地址之前,先判断待采集网站是否启用了CDN服务,包括以下步骤:对待采集网站的域名进行DNS解析,当第一次解析得到的为该域名对应的Cname记录,则说明该网站启用了CDN服务。

本发明公开了一种网站内容采集装置,包括地址获取模块和数据采集模块,其中:

所述地址获取模块,用于获取与待采集网站对应的各CDN节点的IP地址,生成CDN地址列表;

所述数据采集模块,用于依次向CDN地址列表中的各地址发送采集请求,抓取所需数据。

进一步的,所述地址获取模块获取与待采集网站对应的各CDN节点的IP地址的方法包括:收集预设区域内多个DNS服务器的IP地址,向所有的DNS服务器发送CDN域名的解析请求,收集所有返回的CDN节点的IP地址。

进一步的,所述地址获取模块向CDN地址列表中的各地址发送采集请求的方法包括:将http请求包头部的Host字段中的域名替换成为所述获取的CDN节点的IP列表中的一个IP地址,并设置对应的Host参数。

进一步的,所述网站内容采集装置还包括判断模块,用于判断待采集网站是否启用了CDN服务,若采用了CDN服务,则启用所述地址获取模块和所述数据采集模块。

本发明相比于现有技术的有益效果在于:CDN服务本来的目的是就近选择某个CDN节点来获取数据,解决Internet网络拥挤的状况,提高用户访问网站的响应速度,而本发明却依次向CDN地址列表中的尽可能多的各地址发送采集请求,以降低对单节点的访问频率,从而避免由于IP访问频繁而被屏蔽无法采集到网站内容的问题,在满足单点IP访问次数限制的情况下,实现准确、高效的网站内容采集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉安天信息技术有限责任公司,未经武汉安天信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710564036.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top