[发明专利]一种基于线上线下融合的网络爬虫拦截方法在审
申请号: | 202110616355.3 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113395268A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 罗笑南;张家伟 | 申请(专利权)人: | 桂林电子科技大学;桂林笑微酒店管理有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541000 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 线上 融合 网络 爬虫 拦截 方法 | ||
本发明提供一种基于线上线下融合的网络爬虫拦截方法,设置虚假数据,并线上通过分析用户的访问行为来判断用户是否为爬虫,对有着明显用户行为的id通过,对于线上分析为爬虫的id设置验证码,以减少误判。线下分析网络日志来判断那些绕过检测隐蔽性较好的爬虫,并加入爬虫名单库中。本发明结合线上线下共同识别的方式,节省了服务器资源,提高了准确率。
技术领域
本发明设计网络爬虫拦截方法,尤其是一种线上实时分析和线下离线分析共同作用的网络爬虫拦截方法。
背景技术
网络爬虫主要针对于各种网页,自动采集所需要的内容,采集后进行相对应的储存以及处理。爬虫技术在互联网上起到了关键性的作用,加快了信息的获取效率以及多样性,但是网络爬虫也带来了许多负面影响。有些人利用爬虫超范围收集数据,搜集一些非必要的、无关是数据,还有就是没有设密的用户隐私数据,大批量窃取用户数据,造成个人数据泄露,危害社会安全。另外,多线程的爬虫大量爬取某一特定网站会实质性的占用网站的大量带宽资源,造成正常用户无法访问,对公众的正常访问造成干扰。因此,检测并拦截恶意网络爬虫并且对其封禁,对于维护整体网络安全和企业利益有重大意义。
发明内容
当前网络爬虫检测技术实时性不高,在爬虫抓取信息的过程中检测会消耗大量服务器资源,并且由于检测算法的不同,经常会出现误判,进而导致正常用户无法访问,影响用户体验。由于爬虫类型的多样性,没有统一的算法来检测爬虫,故检测速度与检测准确率不能同时提高。本发明提出的方法,对爬虫的访问行为进行识别,运用实时与离线结合的方法,在提高速度的同时减少了误判率,有效的防止了恶意爬虫爬取资源,并且选取用户与爬虫之间行为差别最明显的值作为检测算法好坏的真值。另外,本发明也针对于模仿真实用户操作的爬虫提出有效的检测方法,本发明采用的技术方案是:
一种基于滑动窗口的模块化网络爬虫拦截方法,包括一种线上检测方法和一种离线检测方法:
线上检测方法通过:
1)对于数字类型数据,设置虚假数据,使爬虫获取的数据与真实数据不同
2)设置一个队列空间,队列内保存着访问者的访问行为数据,进一步对访问者是否为爬虫做出判断
3)对于以上两种方法识别出来的爬虫,通过验证码的方式来避免误判
具体地,
步骤1)中,对于展示到页面上的数据,经过css解析后再上传至页面中,解析规则自己设定。用户访问时能得到真实的数据,爬虫则抓取到未解析前的虚假数据。
对于步骤2)中队列内存储着每个访问者的访问数据,具体包括:
从访问者的请求中提取关键字段,包括id、访问时间、引用字段、访问类型;
为每个用户维护一个队列,保存着用户最近访问的n次记录,n为队列的大小;
对于每个请求,首先提取关键字段;如果没有此用户对应的队列,首先为这个用户创建一个队列,如果该用户对应的队列满了,则弹出队列头中的信息,也就是最早的一次记录;将最新的一次请求信息存入队列中;
进一步地,步骤2)中,进一步对访问者是否为爬虫做出判断,具体包括:
对于访问者的访问行为中,为每种访问行为设定一个特征值和权重,对这些特征值加权求和后得到一个总体值,总体值超过阈值的用户被判断为爬虫;
所述每种访问行为包括:
队列内错误响应百分比作为一个特征值;
获取队列中所有请求的请求方式,其中HEAD请求的占比作为一个特征值;
队列中,对请求的资源分类,统计请求每一种资源的访问次数占比;然后将各个资源的访问次数占比平方后相加,作为一个特征值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学;桂林笑微酒店管理有限公司,未经桂林电子科技大学;桂林笑微酒店管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110616355.3/2.html,转载请声明来源钻瓜专利网。