[发明专利]一种基于访问日志IP分析的网络爬虫检测方法在审

申请号：	201811403690.X	申请日：	2018-11-23
公开（公告）号：	CN109657119A	公开（公告）日：	2019-04-19
发明（设计）人：	仲俊霖	申请（专利权）人：	成都知道创宇信息技术有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	成都信博专利代理有限责任公司 51200	代理人：	卓仲阳
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	爬虫检测访问日志网络爬虫检测法访问请求数据包参数控制动态资源访问行为静态资源输出判定特征检测网站接口访问量误报率种检测分析覆盖访问
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于访问日志IP分析的网络爬虫检测方法，其特征在于，包括以下步骤：

(1)、使用特征检测法检测访问请求数据包中的特征来判断是否为普通爬虫，如果识别成功则判定该IP属于网络爬虫，否则进入下一步；

(2)、使用访问行为检测法检测IP访问静态资源和动态资源的比例来判断该IP是否为高级爬虫，如果识别成功则判定该IP属于网络爬虫，否则进入下一步；

(3)、使用特殊爬虫检测法检测网站接口的访问量来判断是否为爬虫，如果识别成功则判定该IP属于网络爬虫，否则判定为非爬虫IP；

(4)、输出判定结果。

2.根据权利要求1所述的一种基于访问日志IP分析的网络爬虫检测方法，其特征在于，所述特征检测法适用于普通爬虫，首先获取访问请求中的UserAgent字段，检测UserAgent中是否包含自动化程序特征，包括python、ruby、PhantomJS、pycurl、httpunit、Wget、Java，如果检测到以上关键词特征则判定为爬虫。

3.根据权利要求1所述的一种基于访问日志IP分析的网络爬虫检测方法，其特征在于，所述访问行为检测法适用于高级爬虫，分为以下几个步骤：

(1)、将网站访问日志按照IP维度进行划分，即获取每个IP的全部网站访问日志；

(2)、在步骤(1)的基础上过滤出HTTP状态码等于200的日志，其它日志均去除掉；

(3)、在步骤(2)的基础上统计每个IP访问日志中访问静态资源和动态资源的比例；所述动、静态资源的区分标准通过访问资源的后缀名进行判断；

(4)、通过步骤(3)得到每个IP访问静态资源和动态资源的比例，如果该IP访问动态资源的比例超过静态资源的比例+预设值，则判定该IP属于爬虫IP。

4.根据权利要求3所述的一种基于访问日志IP分析的网络爬虫检测方法，其特征在于，所述静态资源文件后缀名包括但不限于：.jpg、.png、.js、.css、.gif、.ttf、.ico、.pdf、.mp3、.xls，可以根据网站的静态资源类型进行增减。

5.根据权利要求3所述的一种基于访问日志IP分析的网络爬虫检测方法，其特征在于，所述特殊爬虫检测法适用于特殊爬虫，分为以下几个步骤：

(1)、筛选出网站日志中HTTP状态码等于200的日志，其它日志均去除掉；

(2)、从步骤(1)筛选的日志中过滤出动态资源的访问日志；

(3)、统计步骤(2)结果中的日志条数和去重复后IP数，从而可以得到每个IP访问动态资源的平均次数；

(4)、在步骤(2)的基础上，统计出每个IP访问单个动态资源的次数列表；

(5)、将每个IP访问单个动态资源的次数与步骤3得到的平均访问次数进行对比，如果该IP访问某个动态资源的次数高于平均访问次数+预设值，则判定该IP为爬虫IP。