[发明专利]获取网页中动态加载内容的方法及装置在审

专利信息
申请号: 201610065885.2 申请日: 2016-01-29
公开(公告)号: CN105740419A 公开(公告)日: 2016-07-06
发明(设计)人: 周金剑 申请(专利权)人: 广州酷狗计算机科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 江崇玉
地址: 510000 广东省广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 获取 网页 动态 加载 内容 方法 装置
【说明书】:

技术领域

发明涉及计算机技术领域,特别涉及一种获取网页中动态加载内容的方法及装置。

背景技术

随着网络技术的不断发展,图片、数据库、音频以及视频等不同类型的网络数据大量出现,网络应用开发者通常需要通过专用的工具来定向获取海量的网络数据。

现有技术中,开发者通常使用网络爬虫来定向获取大量网页中某一类型的数据。网络爬虫是一种自动下载网页内容的工具,其可以根据既定的抓取目标,有选择的访问网络中的网页与相关的链接,以获取所需要的信息。

在实现本发明的过程中,申请人发现现有技术存在如下问题:

Ajax异步技术是一种用于创建快速动态网页的技术,其可以在不重新加载整个网页的情况下,对网页的动态内容加载区域内加载的内容进行更新。目前很多web应用都采用Ajax异步技术来开发,目前的网络爬虫只能获取网页首次加载的内容,而无法动态网页加载之后更新的内容,导致对动态网页的数据获取效果较差。

发明内容

本发明实施例提供了一种获取网页中动态加载内容的方法及装置,技术方案如下:

根据本发明实施例的第一方面,提供了一种获取网页中动态加载内容的方法,包括:

从网页源代码中获取在该网页的动态内容加载区域加载首页内容的指定类型文件,该首页内容是该动态内容加载区域中首次加载的内容;

根据该指定类型文件获得该动态内容加载区域中后续加载的动态内容的请求地址;

根据该请求地址获取该动态内容加载区域中后续加载的动态内容。

可选的,该根据该指定类型文件获得该动态内容加载区域中后续加载的动态内容的请求地址,包括:

获取该请求地址的地址构造规则,该地址构造规则是通过解析该指定类型文件确定的规则;

根据该指定类型文件和该地址构造规则构造该请求地址。

可选的,该根据该指定类型文件和该地址构造规则构造该请求地址,包括:

从该指定类型文件中获取指定内容对象;

根据该指定内容对象确定该动态加载区域中后续加载的内容的标识;

根据该后续加载的内容的标识以及该地址构造规则生成该请求地址。

可选的,当该后续加载的动态内容中包含多条内容时,该根据该后续加载的内容的标识以及该地址构造规则生成该请求地址,包括:

根据该后续加载的内容的标识以及该地址构造规则生成至少一条分页内容请求,每一条该分页内容请求用于请求获取该动态加载区域中一个后续加载的分页中的内容。

可选的,该后续加载的内容的标识为该动态加载区域中后续加载的第一条内容的标识,该根据该后续加载的内容的标识以及该地址构造规则生成至少一条分页内容请求,包括:

获取该动态加载区域中每个分页中包含的内容的条数;

根据该动态加载区域中后续加载的第一条内容的标识、该每个分页中包含的内容的条数以及该地址构造规则生成该至少一条分页内容请求。

根据本发明实施例的第二方面,提供了一种获取网页中动态加载内容的装置,该装置包括:

文件获取模块,用于从网页源代码中获取在该网页的动态内容加载区域加载首页内容的指定类型文件,该首页内容是该动态内容加载区域中首次加载的内容;

地址获得模块,用于根据该指定类型文件获得该动态内容加载区域中后续加载的动态内容的请求地址;

内容获取模块,用于根据该请求地址获取该动态内容加载区域中后续加载的动态内容。

可选的,该地址获得模块,包括:

规则获取单元,用于获取该请求地址的地址构造规则,该地址构造规则是通过解析该指定类型文件确定的规则;

地址构造单元,用于根据该指定类型文件和该地址构造规则构造该请求地址。

可选的,该地址构造单元,包括:

对象获取子单元,用于从该指定类型文件中获取指定内容对象;

标识获取子单元,用于根据该指定内容对象确定该动态加载区域中后续加载的内容的标识;

地址生成子单元,用于根据该后续加载的内容的标识以及该地址构造规则生成该请求地址。

可选的,当该后续加载的动态内容中包含多条内容时,该地址生成子单元,用于根据该后续加载的内容的标识以及该地址构造规则生成至少一条分页内容请求,每一条该分页内容请求用于请求获取该动态加载区域中一个后续加载的分页中的内容。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610065885.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top