[发明专利]一种访问请求处理的方法、系统、设备及可读存储介质有效

申请号：	201911182484.5	申请日：	2019-11-27
公开（公告）号：	CN110912902B	公开（公告）日：	2022-04-19
发明（设计）人：	叶亮;范渊;莫凡;刘博	申请（专利权）人：	杭州安恒信息技术股份有限公司
主分类号：	H04L9/40	分类号：	H04L9/40
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王晓坤
地址：	310000 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种访问请求处理方法系统设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种访问请求处理的方法，包括：获取网站流量日志文件；将网站流量日志文件中IP地址为代理IP的日志文件标记为可疑日志文件；从可疑日志文件中提取可疑特征信息；当接收到访问请求时，判断访问请求中的特征信息是否为可疑特征信息；若是，则将访问请求重定向至验证界面。本申请先通过代理IP在网站流量日志文件中筛选可疑日志文件，并从可疑日志文件中提取可疑特征信息，从代理IP的角度来确定可以日志文件，并根据从可疑日志文件中提取到的可疑特征信息对模拟用户行为的高匿爬虫进行拦截，极大的提高爬虫拦截的效率及准确率。本申请同时还提供了一种访问请求处理的系统、设备及可读存储介质，具有上述有益效果。

技术领域

本申请涉及访问请求处理领域，特别涉及一种访问请求处理的方法、系统、设备及可读存储介质。

背景技术

网络爬虫是用户通过脚本或程序向目的网页发起请求，接收到来自服务器的响应后，解析网页内容，提取所需数据信息，存储到对应数据集中的过程。国内外的诸多搜索引擎原理就是通过爬虫实现的，爬虫程序在万维网上遍历网站上的每个链接，并搜集每个网页的信息存储到数据库或其他存储容器中。随着互联网的兴起，数据时代也随之繁荣起来，网络上的爬虫行为也日益增多。一些非法用户为了牟求利益或者达到某种目的，编写爬虫脚本发起恶意网站攻击，危害网络健康。带来的直接影响就是使得真实用户上网体验变差，间接上会损失相关网站利益。

大部分网站为了防止恶意爬虫的访问，会对用户的请求做一些限制措施，如：限制IP的访问频率，判断请求中用户代理，请求来源链接等字段是否存在，IP的下载访问统计，访问资源类型检测等。初级爬虫往往被检测出后便会被重定向到验证页面或被封禁后续访问。

然而，能够模拟用户行为的高匿爬虫往往通过代理IP发起请求，由于网络上可用的代理IP有千千万万个，且会不断更新，故采取封IP的方式无法封禁此类爬虫。

因此，如何对模拟用户行为的高匿爬虫进行拦截是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种访问请求处理的方法、系统、设备及可读存储介质，用于对模拟用户行为的高匿爬虫进行拦截。

为解决上述技术问题，本申请提供一种访问请求处理的方法，该方法包括：

获取网站流量日志文件；

将所述网站流量日志文件中IP地址为代理IP的日志文件标记为可疑日志文件；

从所述可疑日志文件中提取可疑特征信息；

当接收到访问请求时，判断所述访问请求中的特征信息是否为所述可疑特征信息；

若是，则将所述访问请求重定向至验证界面。

可选的，将所述网站流量日志文件中IP地址为代理IP的日志文件标记为可疑日志文件，包括：