[发明专利]一种反爬虫方法、装置、处理器及计算机可读介质在审
| 申请号: | 202010932988.0 | 申请日: | 2020-09-08 | 
| 公开(公告)号: | CN112073412A | 公开(公告)日: | 2020-12-11 | 
| 发明(设计)人: | 唐金满 | 申请(专利权)人: | 北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司 | 
| 主分类号: | H04L29/06 | 分类号: | H04L29/06 | 
| 代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 孙勤;喻嵘 | 
| 地址: | 100085 北京*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 爬虫 方法 装置 处理器 计算机 可读 介质 | ||
本申请公开了一种反爬虫方法、装置、处理器及计算机可读介质,所述方法包括:接收访问请求;采用M个爬虫检测机制对所述访问请求进行检测,获取M个响应结果;采用预设裁决算法针对M个响应结果进行裁决,获得裁决结果;基于所述裁决结果为所述访问请求返回对应的数据。本申请实施例的反爬虫方法通过采用多个爬虫检测机制对访问请求进行检测,根据获得的多个响应结果根据需要选择相应的算法进行裁决计算,以基于裁决结果针对访问请求返回对应的数据,这样避免了单一爬虫检测机制可能造成的误判,提高了爬虫检测的准确性,还可以根据应用场景选用适应的算法进行裁决,提升了安全性,用户体验好。
技术领域
本申请涉及互联网技术领域,尤其涉及一种反爬虫方法、装置、处理器及计算机可读介质。
背景技术
随着互联网技术的迅速发展,大数据时代随之兴起,目前带着个人信息的数据在互联网上几乎随处可见,也有越来越多的企业关注着收集用户数据,爬虫技术也随之快速发展,同时衍生出许多恶意爬虫,例如:DDoS攻击,通过爬虫使网络服务在大量的暴力访问下,资源耗尽而停止提供服务;搜索互联网用户的个人资料,恶意用户获取后有可能实施诈骗;12306购票系统被恶意爬虫占用不停刷票,导致用户购买不到车票,对网络环境造成严重的影响。
现有技术中检测网络爬虫通常是根据爬虫的一个特征,通过设置阈值的方法来对访问行为进行检测,这样可能会出现爬虫检测的漏洞,导致网络爬虫检测的准确率降低;同时也会存在检测失误,当真实的用户访问请求的该特征超过设置的阈值时,会被误判断为网络爬虫,降低用户的体验感。
发明内容
本申请的实施例提供了如下方案:
一种反爬虫方法,包括:
接收访问请求;
采用M个爬虫检测机制对所述访问请求进行检测,获取M个响应结果;
采用预设裁决算法针对M个响应结果进行裁决,获得裁决结果;
基于所述裁决结果为所述访问请求返回对应的数据。
在一些实施例中,所述方法还包括:
在接收到访问请求后,通过预设选择算法从预设的爬虫检测机制集合中选取M个不重复的爬虫检测机制的组合用于检测。
在一些实施例中,所述选择算法包括随机游走算法;
所述通过预设选择算法从爬虫检测机制集合中选取M个不重复的爬虫检测机制的组合包括:
将所述爬虫检测机制集合中的爬虫检测机制分布于一维的网格节点上,随机选取一种爬虫检测机制为起始点,在相邻的节点集合中任意选取一个节点进行下一跳,以下一跳的节点继续跳转,以基于M个随机游走的节点生成M个不重复的爬虫检测机制的组合。
在一些实施例中,所述方法还包括:基于预设条件,通过预设选择算法从预设的爬虫检测机制集合中多次抓取M个不重复的爬虫检测机制的组合用于检测。
在一些实施例中,所述裁决算法包括大数表决算法或一致性表决算法。
在一些实施例中,所述基于所述裁决结果为所述访问请求返回对应的数据包括:
若所述裁决结果正常时,为所述访问请求返回第一数据;
若所述裁决结果非正常时,为所述访问请求返回第二数据。
本申请还提供了一种爬虫检测装置,其特征在于,其包括:
输入单元,用于接收访问请求;
检测单元,采用M个爬虫检测机制对所述访问请求进行检测,获取M个响应结果;
裁决单元,采用预设裁决算法针对M个响应结果进行裁决,获得裁决结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司,未经北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010932988.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种计算机用散热机箱
 - 下一篇:一种信息科技多媒体展示装置
 





