[发明专利]一种网页数据采集方法、装置及系统有效

专利信息
申请号: 201410721389.9 申请日: 2014-12-02
公开(公告)号: CN105721519B 公开(公告)日: 2019-02-05
发明(设计)人: 刘庆;黄华;殷贤君;张美德 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: H04L29/08 分类号: H04L29/08
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 李辉
地址: 英属开曼群岛大开曼*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 数据 采集 方法 装置 系统
【权利要求书】:

1.一种网页数据采集方法,其特征在于,包括:

接收批量采集数据的请求,其中,所述请求携带有目标网址信息;

对该目标网址信息进行至少包括同步加载测试的目标数据采集测试,区分出可同步加载目标数据的目标网址信息以及必须异步加载目标数据的目标网址信息,根据区分结果确定所述目标网址信息对应的可成功采集目标数据的采集策略,其中,所述采集策略包括同步加载方式或异步加载方式;

根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式,采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。

2.根据权利要求1所述的方法,其特征在于,所述确定所述目标网址信息对应的可成功采集目标数据的采集策略包括:

提取所述目标网址信息对应的历史采集策略,所述历史采集策略具体预先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得,所述历史采集策略包括同步加载方式或异步加载方式;

确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略。

3.根据权利要求1所述的方法,其特征在于,所述确定所述目标网址信息对应的可成功采集目标数据的采集策略包括:

提取所述目标网址信息对应的历史采集策略,所述历史采集策略具体预先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得,所述历史采集策略包括同步加载方式或异步加载方式;

按预设小规模测试规则确定用于标识小规模测试数据的HTML标签以及所述目标网址信息中需要测试的网址信息;

根据所述目标网址信息对应的历史采集策略以及用于标识小规模测试数据的HTML标签,尝试采集需要测试的网址信息指向的网页中的小规模测试数据;

如果采集成功,则确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略;

如果采集不成功,则对该目标网址信息进行至少包括同步加载测试的目标数据采集测试,获得对应的可成功采集目标数据的采集策略,根据获得的采集策略更新所述目标网址信息对应的历史采集策略。

4.根据权利要求1-3任一项所述的方法,其特征在于,所述对目标网址信息进行至少包括同步加载测试的目标数据采集测试包括:

采取同步加载方式加载所述目标网址信息指向的网页,针对同步加载得到的网页,从中尝试读取目标数据,针对可从同步加载得到的网页中读取出目标数据的网址信息,设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式,针对不可从同步加载得到的网页中读取出目标数据的网址信息,设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式。

5.根据权利要求4所述的方法,其特征在于,所述采取同步加载方式加载所述目标网址信息指向的网页的步骤多次执行,且,还包括:

在每次执行时,均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间,在设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式时,根据在多次执行过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间,进行对应的采集策略中同步加载方式对应的连接超时时间以及获取页面超时时间的设定;

针对不可从同步加载得到的网页中读取出目标数据的网址信息,多次采取异步加载方式加载其指向的网页,且每次执行时均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间,在设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式时,根据多次采取异步加载方式加载网页过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间,进行对应的采集策略中异步加载方式对应的连接超时时间以及获取页面超时时间的设定。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410721389.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top