[发明专利]网络爬虫处置方法、装置、服务器及存储介质在审
| 申请号: | 202111441142.8 | 申请日: | 2021-11-30 |
| 公开(公告)号: | CN114401104A | 公开(公告)日: | 2022-04-26 |
| 发明(设计)人: | 何嘉杰;邓玉;江魁栋 | 申请(专利权)人: | 中国建设银行股份有限公司 |
| 主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/951 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 蔡抒枫 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网络 爬虫 处置 方法 装置 服务器 存储 介质 | ||
本申请涉及一种网络爬虫处置方法、装置、服务器和存储介质。该方法包括:对网络日志数据进行分析,获取网络日志数据中的预设字段,通过预设字段,确定网络日志数据所属的网络爬虫类别,根据网络日志数据所属的网络爬虫类别,更新网络爬虫的地址名单。采用本方法能够对待处置网络爬虫相关的网络日志数据进行处理,先确定网络日志数据所属的网络爬虫类别,进一步根据网络日志数据所属的网络爬虫类别去更新网络爬虫的地址名单,避免了对网络爬虫在不分类的情况下进行统一处置所存在的问题,从而提高地址名单更新的准确性,进一步提高了处置效果。
技术领域
本申请涉及计算机技术领域,特别是涉及一种网络爬虫处置方法、装置、服务器及存储介质。
背景技术
目前,云计算的发展趋势迅猛,日益被大众所熟知并接受,企业也逐渐将各类应用、网站、服务迁移到云服务商提供的云计算环境。同时,通过网络爬虫程序访问web页面,从网络上获取数据的现象越来越普遍。其中,网络爬虫大致分为搜索引擎爬虫和恶意爬虫,通常需要对网络爬虫进行检测,拒接恶意爬虫程序访问web页面,以确保网络的安全性。
传统技术中,采用主动型网络爬虫处置和被动型网络爬虫处置,对网络爬虫进行统一处置。但是,采用传统的方式处置网络爬虫,会导致处置效果较差。
发明内容
基于此,有必要针对上述技术问题,提供一种网络爬虫处置方法、装置、服务器及存储介质。
一种网络爬虫处置方法,所述方法包括:
对网络日志数据进行分析,获取所述网络日志数据中的预设字段;
通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别;
根据所述网络日志数据所属的网络爬虫类别,更新网络爬虫的地址名单,所述网络爬虫的地址单名用于对网络访问请求进行处置。
在其中一个实施例中,所述对网络日志数据进行分析,确定所述网络日志数据中的预设字段,包括:
对网络访问请求数据进行预处理,得到所述网络日志数据;
根据时序数据库中的功能函数对所述网络日志数据进行分析,确定所述预设字段。
在其中一个实施例中,所述对网络访问请求数据进行预处理,得到所述网络日志数据,包括:
从内存中获取所述网络访问请求数据;所述网络访问请求数据包括Nginx变量;
根据网络爬虫需求,从所述Nginx变量中筛选待处置网络爬虫的相关变量,并将所述相关变量确定为所述网络日志数据。
在其中一个实施例中,所述通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别,包括:
根据所述预设字段,确定初始搜索引擎爬虫的用户代理;
根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别。
在其中一个实施例中,所述根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别,包括:
从所述网络日志数据中获取所述用户代理对应的IP地址列表;所述IP地址列表中包括多个第一IP地址;
根据所述初始搜索引擎爬虫在网站对应的第二IP地址和所述第一地址,确定所述网络日志数据所属的网络爬虫类别。
在其中一个实施例中,所述根据所述初始搜索引擎爬虫在网站对应的第二IP地址和所述第一地址,确定所述网络日志数据所属的网络爬虫类别,包括:
对所述第一IP地址与对应的所述第二IP地址进行比较;
若所述第一IP地址与对应的所述第二IP地址相同,则确定所述网络日志数据为目标搜索引擎爬虫;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111441142.8/2.html,转载请声明来源钻瓜专利网。





