[发明专利]一种基于线上线下融合的网络爬虫拦截方法在审
| 申请号: | 202110616355.3 | 申请日: | 2021-06-03 |
| 公开(公告)号: | CN113395268A | 公开(公告)日: | 2021-09-14 |
| 发明(设计)人: | 罗笑南;张家伟 | 申请(专利权)人: | 桂林电子科技大学;桂林笑微酒店管理有限公司 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 541000 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 线上 融合 网络 爬虫 拦截 方法 | ||
1.一种基于线上线下融合的网络爬虫拦截方法,其特征在于,至少包括一种线上识别方法线上识别方法通过:
(1)设置虚假数据,初步拦截爬取数字信息的爬虫。
(2)设置一个队列空间,队列内保存着访问者的访问行为数据,进一步对访问者是否为爬虫做出判断。
(3)对于上述(1)和(2)识别出为疑似爬虫的行为,最后通过验证码验证的方法确定是否为爬虫并且添加至名单库。
2.如权利要求1所述的一种基于线上线下融合的网络爬虫拦截方法,其特征在于:
步骤(2)中队列内存储着每个访问者的访问数据,具体包括:
从访问者的请求中提取关键字段,包括id、访问时间、引用字段、访问类型;
为每个用户维护一个队列,保存着用户最近访问的n次记录,n为队列的大小;
对于每个请求,首先提取关键字段;
如果没有此用户对应的队列,首先为这个用户创建一个队列,如果该用户对应的队列满了,则弹出队列头中的信息,也就是最早的一次记录;
将最新的一次请求信息存入队列中。
3.如权利要求2所述的一种基于线上线下融合的网络爬虫拦截方法,其特征在于:
步骤(2)中,进一步对访问者是否为爬虫做出判断,具体包括:
对于访问者的访问行为中,为每种访问行为设定一个特征值和权重,对这些特征值加权求和后得到一个总体值,总体值超过阈值的用户被判断为爬虫;
所述每种访问行为包括:
队列内错误响应百分比作为一个特征值;
获取队列中所有请求的请求方式,其中HEAD请求的占比作为一个特征值;
队列中,对请求的资源分类,统计请求每一种资源的访问次数占比;然后将各个资源的访问次数占比平方后相加,作为一个特征值;
访问时间间隔特征向量作为一个特征值,访问时间间隔特征值越大则表示疑似爬虫的可能性越大。
4.如权利要求3所述的一种基于线上线下融合的网络爬虫拦截方法,其特征在于:
(1)将队列中所有相邻访问的时间间隔计算出来得到一个时间间隔序列,数值为time;
(2)对score初始化一个值score=0;设定一个最小时长和最大时长,遍历这个时间间隔序列,当time小于设定最小时长,则score加一个数值,当time在设定最小时常至设定最大时长之间时,score值不变,当time大于设定最大时长,score减一个数值;
(3)遍历所有的序列,最后得到的score就是特征值。
5.一种基于线上线下融合的网络爬虫拦截方法,其特征在于,至少包括一种线下识别方法线下识别方法包括:线下识别的数据来源是网络日志,通过对网络日志分析;
(1)提取关键字段,包括:id、url、翻页情况;提取url用于分析用户请求资源的类型。
(2)统计时段内请求次数的统计,包括总次数和不同类型请求的次数,然后将head请求访问类型的占比作为一个特征值;
翻页情况的统计,将统计时段内发生翻页超过设定次数的翻页情况次数占比作为一个特征值;统计时段内,请求的具体资源类型的次数统计;
统计请求每一种资源的访问次数占比;
然后将各个资源的访问次数占比平方后相加,作为一个特征值。
(3)对于每一个id,对每个特征值赋予各自对应的权值,做加权平均;根据加权平均结果,若超过设定分值阈值,判断为爬虫。
6.如权利要求1所述的一种基于线上线下融合的网络爬虫拦截方法,其特征在于:
步骤(1)中,对于展示到页面上的数据,经过css解析后再上传至页面中,解析规则自己设定。用户访问时能得到真实的数据,爬虫则抓取到未解析前的虚假数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学;桂林笑微酒店管理有限公司,未经桂林电子科技大学;桂林笑微酒店管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110616355.3/1.html,转载请声明来源钻瓜专利网。





