[发明专利]网络爬虫处置方法、装置、服务器及存储介质在审
| 申请号: | 202111441142.8 | 申请日: | 2021-11-30 |
| 公开(公告)号: | CN114401104A | 公开(公告)日: | 2022-04-26 |
| 发明(设计)人: | 何嘉杰;邓玉;江魁栋 | 申请(专利权)人: | 中国建设银行股份有限公司 |
| 主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/951 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 蔡抒枫 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网络 爬虫 处置 方法 装置 服务器 存储 介质 | ||
1.一种网络爬虫处置方法,其特征在于,所述方法包括:
对网络日志数据进行分析,获取所述网络日志数据中的预设字段;
通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别;
根据所述网络日志数据所属的网络爬虫类别,更新网络爬虫的地址名单,所述网络爬虫的地址单名用于对网络访问请求进行处置。
2.根据权利要求1所述的方法,其特征在于,所述对网络日志数据进行分析,确定所述网络日志数据中的预设字段,包括:
对网络访问请求数据进行预处理,得到所述网络日志数据;
根据时序数据库中的功能函数对所述网络日志数据进行分析,确定所述预设字段。
3.根据权利要求2所述的方法,其特征在于,所述对网络访问请求数据进行预处理,得到所述网络日志数据,包括:
从内存中获取所述网络访问请求数据;所述网络访问请求数据包括Nginx变量;
根据网络爬虫需求,从所述Nginx变量中筛选待处置网络爬虫的相关变量,并将所述相关变量确定为所述网络日志数据。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别,包括:
根据所述预设字段,确定初始搜索引擎爬虫的用户代理;
根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别。
5.根据权利要求4所述的方法,其特征在于,所述根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别,包括:
从所述网络日志数据中获取所述用户代理对应的IP地址列表;所述IP地址列表中包括多个第一IP地址;
根据所述初始搜索引擎爬虫在网站对应的第二IP地址和所述第一地址,确定所述网络日志数据所属的网络爬虫类别。
6.根据权利要求5所述的方法,其特征在于,所述根据所述初始搜索引擎爬虫在网站对应的第二IP地址和所述第一地址,确定所述网络日志数据所属的网络爬虫类别,包括:
对所述第一IP地址与对应的所述第二IP地址进行比较;
若所述第一IP地址与对应的所述第二IP地址相同,则确定所述网络日志数据为目标搜索引擎爬虫;
若所述第一IP地址与对应的所述第二IP地址不相同,则确定所述网络日志数据为恶意网络爬虫。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述第一IP地址与对应的所述第二IP地址不相同,则将所述第一IP地址从所述IP地址列表中删除。
8.根据权利要求4所述的方法,其特征在于,所述根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别,包括:
若所述用户代理中包含编程语言内容,则将所述网络日志数据确定为恶意网络爬虫。
9.根据权利要求4所述的方法,其特征在于,所述根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别,包括:
根据所述功能函数,从所述预设字段中获取网络爬虫请求特征,所述网络爬虫请求特征包括访问频率和/或访问异常信息;
根据所述网络爬虫请求特征,确定所述网络日志数据所属的网络爬虫类别。
10.根据权利要求9所述的方法,其特征在于,若所述网络日志数据所属的网络爬虫类别为恶意网络爬虫,则所述更新网络爬虫的地址名单,包括:
若所述恶意网络爬虫灰名单中的第三IP地址为预设时间内的更新IP地址,且所述更新IP地址对应的网络日志数据的访问频率大于预设频率阈值,则根据用户指令更新所述地址名单。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111441142.8/1.html,转载请声明来源钻瓜专利网。





