[发明专利]一种网页爬虫异步加密数据采集方法在审

申请号：	201911369510.5	申请日：	2019-12-26
公开（公告）号：	CN113051453A	公开（公告）日：	2021-06-29
发明（设计）人：	孙香娟;周彦其;姜波;李鑫	申请（专利权）人：	中文在线数字出版集团股份有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F21/60
代理公司：	北京市盛峰律师事务所 11337	代理人：	于国强
地址：	100007 北京市东城区东总***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页爬虫异步加密数据采集方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种网页爬虫异步加密数据采集方法，所述方法包括S1、获取网络请求；S2、根据所述网络请求对应返回网址数据；S3、对所述网址数据进行分析，对分析结果进行关键字搜索找到待解密的JavaScript文件；S4、采用JavaScript方法特征对所述待解密的JavaScript文件进行逆向分析，获取JavaScript文件的加密算法，并分析加密算法的实现方式；S5、模拟所述加密算法的实现方式，并通过模拟的加密算法的实现方式，对待加密的JavaScript文件进行加密，并将加密后的JavaScript文件存储在相应的网址数据中。优点是：该方法实现了破解的效果，并得到了可以提高采集数据准确性和加快采集速度的结果。

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种网页爬虫异步加密数据采集方法。

背景技术

在现在的网页资源定向采集爬虫程序中，很多时候我们要面对网站使用ajax请求返回加密字符的情况，一般我们使用爬虫程序调用开源浏览器内核，对目标值进行截图，并通过OCR识别来获取结果的方法。但是往往会碰到的现象是OCR识别操作复杂，数据不准确，提高准确率难，效率低的情况。并且在数据量高速膨胀的信息化社会，效率低下代表着无法完成目标。

发明内容

本发明的目的在于提供一种网页爬虫异步加密数据采集方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种网页爬虫异步加密数据采集方法，所述方法包括如下步骤，

S1、获取网络请求；

S2、根据所述网络请求对应返回网址数据；

S3、对所述网址数据进行分析，对分析结果进行关键字搜索找到待解密的JavaScript文件；

S4、采用JavaScript方法特征对所述待解密的JavaScript文件进行逆向分析，获取JavaScript文件的加密算法，并分析加密算法的实现方式；

S5、模拟所述加密算法的实现方式，并通过模拟的加密算法的实现方式，对待加密的JavaScript文件进行加密，并将加密后的JavaScript文件存储在相应的网址数据中。

优选的，步骤S2具体为，采用chrome browser抓包工具，所述网址数据进行分析。

优选的，步骤S5中，采用Java语言模拟所述加密算法的实现方式。

优选的，步骤S5中，通过模拟的过程对JavaScript文件进行加密时，不调用JavaScript引擎。