[发明专利]获取网页中动态加载内容的方法及装置在审
申请号: | 201610065885.2 | 申请日: | 2016-01-29 |
公开(公告)号: | CN105740419A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 周金剑 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 江崇玉 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取 网页 动态 加载 内容 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种获取网页中动态加载内容的方法及装置。
背景技术
随着网络技术的不断发展,图片、数据库、音频以及视频等不同类型的网络数据大量出现,网络应用开发者通常需要通过专用的工具来定向获取海量的网络数据。
现有技术中,开发者通常使用网络爬虫来定向获取大量网页中某一类型的数据。网络爬虫是一种自动下载网页内容的工具,其可以根据既定的抓取目标,有选择的访问网络中的网页与相关的链接,以获取所需要的信息。
在实现本发明的过程中,申请人发现现有技术存在如下问题:
Ajax异步技术是一种用于创建快速动态网页的技术,其可以在不重新加载整个网页的情况下,对网页的动态内容加载区域内加载的内容进行更新。目前很多web应用都采用Ajax异步技术来开发,目前的网络爬虫只能获取网页首次加载的内容,而无法动态网页加载之后更新的内容,导致对动态网页的数据获取效果较差。
发明内容
本发明实施例提供了一种获取网页中动态加载内容的方法及装置,技术方案如下:
根据本发明实施例的第一方面,提供了一种获取网页中动态加载内容的方法,包括:
从网页源代码中获取在该网页的动态内容加载区域加载首页内容的指定类型文件,该首页内容是该动态内容加载区域中首次加载的内容;
根据该指定类型文件获得该动态内容加载区域中后续加载的动态内容的请求地址;
根据该请求地址获取该动态内容加载区域中后续加载的动态内容。
可选的,该根据该指定类型文件获得该动态内容加载区域中后续加载的动态内容的请求地址,包括:
获取该请求地址的地址构造规则,该地址构造规则是通过解析该指定类型文件确定的规则;
根据该指定类型文件和该地址构造规则构造该请求地址。
可选的,该根据该指定类型文件和该地址构造规则构造该请求地址,包括:
从该指定类型文件中获取指定内容对象;
根据该指定内容对象确定该动态加载区域中后续加载的内容的标识;
根据该后续加载的内容的标识以及该地址构造规则生成该请求地址。
可选的,当该后续加载的动态内容中包含多条内容时,该根据该后续加载的内容的标识以及该地址构造规则生成该请求地址,包括:
根据该后续加载的内容的标识以及该地址构造规则生成至少一条分页内容请求,每一条该分页内容请求用于请求获取该动态加载区域中一个后续加载的分页中的内容。
可选的,该后续加载的内容的标识为该动态加载区域中后续加载的第一条内容的标识,该根据该后续加载的内容的标识以及该地址构造规则生成至少一条分页内容请求,包括:
获取该动态加载区域中每个分页中包含的内容的条数;
根据该动态加载区域中后续加载的第一条内容的标识、该每个分页中包含的内容的条数以及该地址构造规则生成该至少一条分页内容请求。
根据本发明实施例的第二方面,提供了一种获取网页中动态加载内容的装置,该装置包括:
文件获取模块,用于从网页源代码中获取在该网页的动态内容加载区域加载首页内容的指定类型文件,该首页内容是该动态内容加载区域中首次加载的内容;
地址获得模块,用于根据该指定类型文件获得该动态内容加载区域中后续加载的动态内容的请求地址;
内容获取模块,用于根据该请求地址获取该动态内容加载区域中后续加载的动态内容。
可选的,该地址获得模块,包括:
规则获取单元,用于获取该请求地址的地址构造规则,该地址构造规则是通过解析该指定类型文件确定的规则;
地址构造单元,用于根据该指定类型文件和该地址构造规则构造该请求地址。
可选的,该地址构造单元,包括:
对象获取子单元,用于从该指定类型文件中获取指定内容对象;
标识获取子单元,用于根据该指定内容对象确定该动态加载区域中后续加载的内容的标识;
地址生成子单元,用于根据该后续加载的内容的标识以及该地址构造规则生成该请求地址。
可选的,当该后续加载的动态内容中包含多条内容时,该地址生成子单元,用于根据该后续加载的内容的标识以及该地址构造规则生成至少一条分页内容请求,每一条该分页内容请求用于请求获取该动态加载区域中一个后续加载的分页中的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610065885.2/2.html,转载请声明来源钻瓜专利网。