[发明专利]一种识别爬虫的方法、装置及系统在审
| 申请号: | 201811321280.0 | 申请日: | 2018-11-07 |
| 公开(公告)号: | CN109582844A | 公开(公告)日: | 2019-04-05 |
| 发明(设计)人: | 张璐;刁士涵;武金 | 申请(专利权)人: | 北京三快在线科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/332;G06F17/27 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 爬虫 词频 装置及系统 访问请求 分布特征 用户代理 字段 储备量 误伤 正常用户 申请 访问 统计 | ||
本申请提供一种识别爬虫的方法、装置及系统,其中,所述方法包括:若监听到用户用于访问当前页面的访问请求,则从所述访问请求中获取用户代理字段;确定所述用户代理字段的词频分布特征;将所述词频分布特征输入到预先训练的爬虫识别模型中,得到所述用户是否为爬虫的识别结果。本申请由于不需要统计IP访问流量或频次,因而可以避免因为爬虫的IP储备量大而漏过爬虫,并且可以避免误伤公共IP下的正常用户。
技术领域
本申请涉及互联网技术领域,尤其涉及一种识别爬虫的方法、装置及系统。
背景技术
网络爬虫(简称爬虫),是一种通过网页的链接地址寻找网页,并按照一定的规则,自动获取网页内容的程序或者脚本。目前的爬虫技术可以通过设定的规则,抓取网页源码中一些重要信息,造成网站信息泄漏,降低网站安全性能。
现有的一种识别爬虫的方案,可以累计IP(Internet Protocol,网络之间互连的协议)的访问流量(或频次),当累计的流量超过预设阈值时,将该IP对应的用户视为爬虫,并加入黑名单进行拦截。然而,这种方式当爬虫的IP储备量较大时,容易因为单个IP的流量未超过预设阈值而漏过爬虫,并且容易误伤公共IP下的正常用户。
发明内容
有鉴于此,本申请提供一种识别爬虫的方法、装置及系统,以解决现有的反爬虫技术方案存在的上述问题。
具体地,本申请是通过如下技术方案实现的:
根据本申请的第一方面,提出了一种识别爬虫的方法,包括:
若监听到用户用于访问当前页面的访问请求,则从所述访问请求中获取用户代理字段;
确定所述用户代理字段的词频分布特征;
将所述词频分布特征输入到预先训练的爬虫识别模型中,得到所述用户是否为爬虫的识别结果。
在一实施例中,所述确定所述用户代理字段的词频分布特征,包括:
对所述用户代理字段进行分词处理,得到至少一个目标词语;
根据所述至少一个目标词语的词频确定所述用户代理字段的词频分布特征。
在一实施例中,所述根据所述至少一个目标词语的词频确定所述用户代理字段的词频分布特征,包括:
基于预先构建的对应关系,确定所述至少一个目标词语中每个目标词语的词频;
统计所述至少一个目标词语的词频落入多个预设词频区间的数量;
根据所述数量对应的向量确定所述用户代理字段对应的词频分布特征。
在一实施例中,所述爬虫识别模型根据以下步骤训练得到:
获取多个样本访问请求,并从所述多个样本访问请求中获取样本用户代理字段;
确定所述样本用户代理字段的样本词频分布特征;
对所述样本词频分布特征进行标定,并将标定后的样本词频分布特征作为训练集,训练所述爬虫识别模型。
在一实施例中,所述确定所述样本用户代理字段的样本词频分布特征,包括:
对所述样本用户代理字段进行分词处理,得到至少一个样本目标词语;
基于预先构建的对应关系,确定所述至少一个样本目标词语中每个样本目标词语的词频;
统计所述至少一个样本目标词语的词频落入多个预设词频区间的数量;
根据所述数量对应的向量确定所述样本用户代理字段对应的样本词频分布特征。
在一实施例中,所述获取多个样本访问请求,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811321280.0/2.html,转载请声明来源钻瓜专利网。





