[发明专利]一种访问请求处理的方法、系统、设备及可读存储介质有效
申请号: | 201911182484.5 | 申请日: | 2019-11-27 |
公开(公告)号: | CN110912902B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 叶亮;范渊;莫凡;刘博 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王晓坤 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 访问 请求 处理 方法 系统 设备 可读 存储 介质 | ||
本申请公开了一种访问请求处理的方法,包括:获取网站流量日志文件;将网站流量日志文件中IP地址为代理IP的日志文件标记为可疑日志文件;从可疑日志文件中提取可疑特征信息;当接收到访问请求时,判断访问请求中的特征信息是否为可疑特征信息;若是,则将访问请求重定向至验证界面。本申请先通过代理IP在网站流量日志文件中筛选可疑日志文件,并从可疑日志文件中提取可疑特征信息,从代理IP的角度来确定可以日志文件,并根据从可疑日志文件中提取到的可疑特征信息对模拟用户行为的高匿爬虫进行拦截,极大的提高爬虫拦截的效率及准确率。本申请同时还提供了一种访问请求处理的系统、设备及可读存储介质,具有上述有益效果。
技术领域
本申请涉及访问请求处理领域,特别涉及一种访问请求处理的方法、系统、设备及可读存储介质。
背景技术
网络爬虫是用户通过脚本或程序向目的网页发起请求,接收到来自服务器的响应后,解析网页内容,提取所需数据信息,存储到对应数据集中的过程。国内外的诸多搜索引擎原理就是通过爬虫实现的,爬虫程序在万维网上遍历网站上的每个链接,并搜集每个网页的信息存储到数据库或其他存储容器中。随着互联网的兴起,数据时代也随之繁荣起来,网络上的爬虫行为也日益增多。一些非法用户为了牟求利益或者达到某种目的,编写爬虫脚本发起恶意网站攻击,危害网络健康。带来的直接影响就是使得真实用户上网体验变差,间接上会损失相关网站利益。
大部分网站为了防止恶意爬虫的访问,会对用户的请求做一些限制措施,如:限制IP的访问频率,判断请求中用户代理,请求来源链接等字段是否存在,IP的下载访问统计,访问资源类型检测等。初级爬虫往往被检测出后便会被重定向到验证页面或被封禁后续访问。
然而,能够模拟用户行为的高匿爬虫往往通过代理IP发起请求,由于网络上可用的代理IP有千千万万个,且会不断更新,故采取封IP的方式无法封禁此类爬虫。
因此,如何对模拟用户行为的高匿爬虫进行拦截是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种访问请求处理的方法、系统、设备及可读存储介质,用于对模拟用户行为的高匿爬虫进行拦截。
为解决上述技术问题,本申请提供一种访问请求处理的方法,该方法包括:
获取网站流量日志文件;
将所述网站流量日志文件中IP地址为代理IP的日志文件标记为可疑日志文件;
从所述可疑日志文件中提取可疑特征信息;
当接收到访问请求时,判断所述访问请求中的特征信息是否为所述可疑特征信息;
若是,则将所述访问请求重定向至验证界面。
可选的,将所述网站流量日志文件中IP地址为代理IP的日志文件标记为可疑日志文件,包括:
从预设代理网站中收集所述代理IP,并将所述代理IP存入代理数据库中;
通过正则表达式提取所述网站流量日志文件中的来源IP,并判断所述代理数据库中是否存在所述来源IP;
若是,则将所述来源IP对应的日志文件标记为所述可疑日志文件。
可选的,还包括:
定期使用检测脚本对所述代理数据库中的代理IP进行可用性验证;
将未通过所述可用性验证的代理IP删除。
可选的,在将所述访问请求重定向至验证界面之后,还包括:
获取所述访问请求的来源IP的访问次数;
当所述访问次数大于阈值时,禁止所述访问请求的来源IP发起访问。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911182484.5/2.html,转载请声明来源钻瓜专利网。