[发明专利]识别网络爬虫以及提取网络爬虫特征的方法及装置有效
| 申请号: | 201810108285.9 | 申请日: | 2018-02-02 |
| 公开(公告)号: | CN109145185B | 公开(公告)日: | 2019-07-02 |
| 发明(设计)人: | 刘鑫琪;陈峰;丛磊 | 申请(专利权)人: | 北京数安鑫云信息技术有限公司 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06N20/00 |
| 代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 白莹;李冬梅 |
| 地址: | 100015 北京市朝阳区酒仙*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征集 网络爬虫 访问 爬虫 子集 访问参数 业务访问 用户访问 检测 历史日志 时间推移 训练数据 样本用户 误判 监控 | ||
本发明公开了识别网络爬虫以及提取网络爬虫特征的方法及装置,此方法包括:确定用户访问特征集中的子集,此子集中的访问特征的访问参数与整体业务访问特征集中的至少一访问特征的访问参数相同;根据子集与整体业务访问特征集确定出综合访问特征集;从作为训练数据的历史日志中获取样本用户的用户访问特征集和综合访问特征集的合集中各访问特征的值,根据合集中各访问特征的值从合集中选择出重要访问特征集;根据重要访问特征集检测待检测用户是否为爬虫。通过本发明获得的爬虫特征具有代表性,通过有效性监控如果随时间推移出现误判则可以调整重要访问特征及相应的规则,最终达到较高的爬虫检测的精确率和召回率。
技术领域
本发明涉及互联网技术领域,尤其涉及识别网络爬虫以及提取网络爬虫特征的方法及装置。
背景技术
互联网中充斥着大量的爬虫,通过使用爬虫爬取目标网站内容,造成网站内容被其他人以低成本方式获取并利用;高频爬虫也会使业务负载变高使成本增加,正常用户浏览体验变差。
现有技术主要有以下几种:
一,简单判断方式:如某IP请求数在指定时间窗口内达到一定阈值则判断为爬虫,这种方式非常容易产生误判;或User-agent字符串包含爬虫相关信息,而大多数爬虫会通过改变诸如User-agent进行伪装,这种方式会产生大量漏判。
二,蜜罐资源:通过在页面添加一些正常浏览器浏览访问不到的资源,一旦有ip访问,过滤下头部如不是搜索引擎的蜘蛛则判断为爬虫。这种方式,如换一个业务则需要工程师重新设置蜜罐资源。
三,定期日志分析:通过使用自己研发或第三方的日志分析系统,离线分析日志。这种方式实时性低,爬虫可能已经完成了大量信息的爬取工作。同时这种方式针对一种业务按照特定规则进行分析,如换一个业务或业务本身发生变化则规则需要人工调整。
发明内容
为了解决上述技术问题,本发明提供了识别网络爬虫以及提取网络爬虫特征的方法及装置。
本发明提供的识别网络爬虫的方法,包括:
步骤1,确定作为训练数据的历史日志,确定作为训练数据的历史日志中的样本用户,确定样本用户中的非爬虫样本用户和爬虫样本用户;
步骤2,确定用户访问特征集和整体业务访问特征集;
步骤3,确定所述用户访问特征集中的子集,此子集中的访问特征的访问参数与所述整体业务访问特征集中的至少一访问特征的访问参数相同;
步骤4,根据所述子集与所述整体业务访问特征集确定出综合访问特征集;
步骤5,从所述作为训练数据的历史日志中获取所述样本用户的所述用户访问特征集和所述综合访问特征集的合集中各访问特征的值,根据合集中各访问特征的值从所述合集中选择出重要访问特征集;
步骤6,根据所述重要访问特征集检测待检测用户是否为爬虫。
上述识别网络爬虫的方法还具有以下特点:
所述根据所述重要访问特征集检测待检测用户是否为爬虫包括:
确定非爬虫样本用户的重要访问特征对应的正常范围,或确定爬虫样本用户的重要访问特征对应的异常范围;
根据待检测用户的预设时段内的历史日志计算所述重要访问特征的值,判断所述重要访问特征的值均位于所述正常范围之外或者所述异常范围之内时,确定所述待检测用户为爬虫。
上述识别网络爬虫的方法还具有以下特点:
根据所述子集与所述整体业务访问特征集确定出综合访问特征集包括:将访问参数的所述子集中的访问特征与所述整体业务访问特征集中的访问特征的比例作为综合访问特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数安鑫云信息技术有限公司,未经北京数安鑫云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810108285.9/2.html,转载请声明来源钻瓜专利网。





