[发明专利]基于浏览器的网络资源的提取方法及装置在审
| 申请号: | 201310464253.X | 申请日: | 2013-10-08 |
| 公开(公告)号: | CN103593396A | 公开(公告)日: | 2014-02-19 |
| 发明(设计)人: | 徐锐波 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 何秀明 |
| 地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 浏览器 网络资源 提取 方法 装置 | ||
技术领域
本发明涉及计算机网络技术,尤其涉及网络资源的提取方法及装置。
背景技术
目前,越来越多的网络技术被广泛应用,例如目的在于节约开发成本的异步请求处理技术;通过JS或者cookie对资源的链接实施加密,目的在于防止网络蜘蛛的抓取的链接加密技术等等。无论出于何种目的,对于这类资源的抓取都有一定的难度,而且在无法破解加密算法的情况下,无法实现自动化抓取工作。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网络资源的提取方法及装置。
依据本发明的一个方面,提供了网络资源的提取方法,其包括:从包含多个文档消息的消息队列中提取文档消息,其中每一文档消息包含需要操作的网页的URL节点以及对该网页进行操作的操作策略;将与所述文档消息中包含的URL节点对应的网页用浏览器打开;依照所述文档消息中包含的所述操作策略对该网页进行操作;以及输出对该网页操作的操作结果。
依据本发明的另一个方面,提供了网络资源的提取装置,其包括:消息获取模块,其适于从多个文档消息的消息队列中提取文档消息,其中每一文档消息包含需要操作的网页的URL节点以及对该网页进行操作的操作策略;网页打开模块,其适于将与所述文档消息中包含的URL节点对应的网页用浏览器打开;网页操作模块,其适于依照所述文档消息中包含的所述操作策略对该网页进行操作;以及结果输出模块,其适于输出对该网页操作的操作结果。
本发明的网络资源的提取方法及装置借助浏览器对网络技术高度支持的优势,将复杂的http通讯过程,加密,JS事件等技术交给浏览器执行,节约了大量的人力。通过使用本发明,用户只需专注于简单的人工浏览器操作,将操作步骤通过配置信息告知本发明的网络资源的提取装置或者通过本发明的网络资源的提取方法来执行,就可以获取最终有效的网页信息或资源。另外,本发明对网络爬虫复杂网页及资源的抓取自动化提供了基础。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明的一种实施方式的基于浏览器的网络资源的提取方法的流程图;
图2示出了根据本发明的另一个实施方式的基于浏览器的网络资源的提取装置的方框示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。
在现有的网络资源下载技术中,由于网页或者资源采用了异步请求处理技术、或者通过JS或cookie对网页或资源的链接进行加密等技术,一方面,常用的curl,urllib,socket等网络技术采用直接下载的方式将无法获取网页信息或资源的网络链接;另一方面,需要逐个分析http通讯协议,加密算法等等,耗费大量的人力,且存在无法破解的风险,极其不利于生产流程的自动化。
由于浏览器具有对网络技术高度支持的优势,其支持异步请求处理技术以及在打开网页时能够自动解密并加载网页资源,所以通过浏览器能够直接获取网页信息或资源的网络链接。因此,本发明提出了一种网络资源的提取方法和装置,其借助于浏览器、按照定制步骤获取最终的有效的网络信息或资源。
图1示出了根据本发明的一种实施方式的网络资源的提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310464253.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种万向调整支承装置
- 下一篇:一种铌铁矿结构ZnNb2O6纤维及其制备方法





