[发明专利]一种防WEB爬虫的方法和装置有效
| 申请号: | 201811333343.4 | 申请日: | 2018-11-09 | 
| 公开(公告)号: | CN109492146B | 公开(公告)日: | 2021-06-29 | 
| 发明(设计)人: | 陆波;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 | 
| 主分类号: | G06F16/951 | 分类号: | G06F16/951 | 
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王文红 | 
| 地址: | 310051 浙江省*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 web 爬虫 方法 装置 | ||
1.一种防WEB爬虫的方法,其特征在于,包括:
获取目标网页的第一目标数据和所述第一目标数据对应的HTTP响应数据,其中,所述第一目标数据包括以下至少一种:HTML数据,XML数据,文本数据,图片数据,音频数据;
对所述第一目标数据的原始DOM树形结构中的目标锚标签的原始href属性值进行改写,得到包含目标URL的目标DOM树形结构,其中,所述目标锚标签为原始href属性值中不包括关键字http://,且所述href属性值的开头为非井字形关键字的锚标签;
基于所述目标DOM树形结构,构造所述第一目标数据的目标HTML代码,并将所述目标HTML代码发送给客户端;
获取所述客户端基于所述目标HTML代码发送的访问请求;
若所述访问请求为对所述目标URL的第一访问请求,则确定所述客户端为爬虫,并对所述第一访问请求执行阻断操作;
其中,对所述第一目标数据的原始DOM树形结构中的目标锚标签的原始href属性值进行改写,得到目标DOM树形结构包括:
遍历所述原始DOM树形结构中的各个锚标签的href属性值,根据遍历结果从所述各个锚标签中确定所述目标锚标签;
按照预设算法对所述目标锚标签的原始href属性值进行改写,得到所述目标DOM树形结构。
2.根据权利要求1所述的方法,其特征在于,在获取到目标网页的第一目标数据和所述第一目标数据对应的HTTP响应数据之后,所述方法还包括:
若所述HTTP响应数据的响应头部Content-Type字段值为text/html,且所述HTTP响应数据的响应体内容包括目标关键字,则基于所述第一目标数据的HTML代码构建所述原始DOM树形结构,其中,所述目标关键字:html,head,body。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述访问请求为对原始URL的第二访问请求,则确定所述客户端为浏览器,并获取所述浏览器的运行环境噪声值;
若所述运行环境噪声值大于或等于预设值,则执行所述第二访问请求,以使所述浏览器访问所述原始URL获取第二目标数据,其中,所述第一目标数据与所述第二目标数据的数据类型和/或内容相同;
若所述运行环境噪声值小于所述预设值,则阻断所述第二访问请求。
4.根据权利要求3所述的方法,其特征在于,获取所述浏览器的运行环境噪声值包括:
采集在所述浏览器中所执行的目标操作,并统计所述目标操作的执行次数;
将所述执行次数确定为所述浏览器的运行环境噪声值;
其中,所述目标操作包括以下至少一种:所述浏览器中光标的移动操作,所述浏览器中光标的点击操作,所述浏览器窗口的滑动操作,所述浏览器窗口调整操作,在所述浏览器中输入字符的操作。
5.一种防WEB爬虫的装置,其特征在于,所述装置包括:第一获取单元,改写单元,第一构建单元,第二获取单元和阻断单元,其中,
所述第一获取单元用于获取目标网页的第一目标数据和所述第一目标数据对应的HTTP响应数据,其中,所述第一目标数据包括以下至少一种:HTML数据,XML数据,文本数据,图片数据,音频数据;
所述改写单元用于对所述第一目标数据的原始DOM树形结构中的目标锚标签的原始href属性值进行改写,得到包含目标URL的目标DOM树形结构,其中,所述目标锚标签为原始href属性值中不包括关键字http://,且所述href属性值的开头为非井字形关键字的锚标签;
所述第一构建单元用于基于所述目标DOM树形结构,构造所述第一目标数据的目标HTML代码,并将所述目标HTML代码发送给客户端;
所述第二获取单元用于获取所述客户端基于所述目标HTML代码发送的访问请求;
所述阻断单元用于若所述访问请求为对所述目标URL的第一访问请求,则确定所述客户端为爬虫,并对所述访问请求执行阻断操作;
其中,所述改写单元还用于:
遍历所述原始DOM树形结构中的各个锚标签的href属性值,根据遍历结果从所述各个锚标签中确定所述目标锚标签;
按照预设算法对所述目标锚标签的原始href属性值进行改写,得到所述目标DOM树形结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811333343.4/1.html,转载请声明来源钻瓜专利网。





