[发明专利]一种识别爬虫的方法、装置及系统在审

申请号：	201811321280.0	申请日：	2018-11-07
公开（公告）号：	CN109582844A	公开（公告）日：	2019-04-05
发明（设计）人：	张璐;刁士涵;武金	申请（专利权）人：	北京三快在线科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/332;G06F17/27
代理公司：	北京博思佳知识产权代理有限公司 11415	代理人：	林祥
地址：	100080 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	爬虫词频装置及系统访问请求分布特征用户代理字段储备量误伤正常用户申请访问统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种识别爬虫的方法、装置及系统，其中，所述方法包括：若监听到用户用于访问当前页面的访问请求，则从所述访问请求中获取用户代理字段；确定所述用户代理字段的词频分布特征；将所述词频分布特征输入到预先训练的爬虫识别模型中，得到所述用户是否为爬虫的识别结果。本申请由于不需要统计IP访问流量或频次，因而可以避免因为爬虫的IP储备量大而漏过爬虫，并且可以避免误伤公共IP下的正常用户。

技术领域

本申请涉及互联网技术领域，尤其涉及一种识别爬虫的方法、装置及系统。

背景技术

网络爬虫(简称爬虫)，是一种通过网页的链接地址寻找网页，并按照一定的规则，自动获取网页内容的程序或者脚本。目前的爬虫技术可以通过设定的规则，抓取网页源码中一些重要信息，造成网站信息泄漏，降低网站安全性能。

现有的一种识别爬虫的方案，可以累计IP(Internet Protocol，网络之间互连的协议)的访问流量(或频次)，当累计的流量超过预设阈值时，将该IP对应的用户视为爬虫，并加入黑名单进行拦截。然而，这种方式当爬虫的IP储备量较大时，容易因为单个IP的流量未超过预设阈值而漏过爬虫，并且容易误伤公共IP下的正常用户。

发明内容

有鉴于此，本申请提供一种识别爬虫的方法、装置及系统，以解决现有的反爬虫技术方案存在的上述问题。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提出了一种识别爬虫的方法，包括：

若监听到用户用于访问当前页面的访问请求，则从所述访问请求中获取用户代理字段；

确定所述用户代理字段的词频分布特征；

将所述词频分布特征输入到预先训练的爬虫识别模型中，得到所述用户是否为爬虫的识别结果。

在一实施例中，所述确定所述用户代理字段的词频分布特征，包括：

对所述用户代理字段进行分词处理，得到至少一个目标词语；

根据所述至少一个目标词语的词频确定所述用户代理字段的词频分布特征。

在一实施例中，所述根据所述至少一个目标词语的词频确定所述用户代理字段的词频分布特征，包括：

基于预先构建的对应关系，确定所述至少一个目标词语中每个目标词语的词频；