[发明专利]一种网络爬虫的识别方法及装置有效
| 申请号: | 201710081453.5 | 申请日: | 2017-02-15 |
| 公开(公告)号: | CN108429721B | 公开(公告)日: | 2020-08-04 |
| 发明(设计)人: | 唐文韬;郑云文;胡珀;郑兴;郭晶;张强;范宇河;王放;杨勇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/951;G06F16/953;G06F16/958 |
| 代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络 爬虫 识别 方法 装置 | ||
1.一种网络爬虫的识别方法,其特征在于,包括:
生成爬虫识别指令;
根据所述爬虫识别指令获取预设时段内存储的用户标识集、以及所述用户标识集中每一用户标识对应的访问时间集;
计算所述访问时间集中相邻两次访问时间相隔的时长,得到间隔时长集;
计算每一间隔时长集中相邻两个时长之间的差值,得到每一用户标识对应的差值集;
根据每一差值集中不大于第一预设阀值的差值确定命中次数;
根据所述命中次数从所述用户标识集中识别出网络爬虫。
2.根据权利要求1所述的网络爬虫的识别方法,其特征在于,所述根据每一差值集中不大于第一预设阀值的差值确定命中次数,包括:
将每一差值集中相邻两个不大于第一预设阀值的差值归为同一组,得到差值组集;
计算所述差值组集中每一差值组的差值的数量,并获取数值最大的数量作为命中次数。
3.根据权利要求1所述的网络爬虫的识别方法,其特征在于,所述根据所述命中次数从所述用户标识集中识别出网络爬虫,包括:
从所有命中次数中获取不小于第二预设阀值的命中次数,得到目标命中次数;
基于所述目标命中次数从所述用户标识集中识别出网络爬虫。
4.根据权利要求3所述的网络爬虫的识别方法,其特征在于,所述基于所述目标命中次数从所述用户标识集中识别出网络爬虫,包括:
将所述目标命中次数对应的用户标识确定为网络爬虫;或者,
获取每一用户标识对应的访问地址集,每一访问时间对应一个访问地址;根据所述访问时间集、访问地址集和目标命中次数从所述用户标识集中识别出网络爬虫。
5.根据权利要求4所述的网络爬虫的识别方法,其特征在于,所述根据所述访问时间集、访问地址集和目标命中次数从所述用户标识集中识别出网络爬虫,包括:
根据所述访问时间集计算每一用户标识对应的总访问次数;
根据所述访问地址集和访问时间集计算每一用户标识对应的目标访问次数;
根据所述总访问次数、目标访问次数和目标命中次数从所述用户标识集中识别出网络爬虫。
6.根据权利要求5所述的网络爬虫的识别方法,其特征在于,所述根据所述访问地址集和访问时间集计算每一用户标识对应的目标访问次数,包括:
从所述访问地址集中获取预设接口地址;
从所述访问时间集中获取所述预设接口地址的访问时间;
根据所述预设接口地址的访问时间计算每一用户标识对应的目标访问次数。
7.根据权利要求5所述的网络爬虫的识别方法,其特征在于,所述根据所述总访问次数、目标访问次数和目标命中次数从所述用户标识集中识别出网络爬虫,包括:
计算每一用户标识对应的目标访问次数和总访问次数之间的比值;
根据所述比值和总访问次数从所述用户标识集中确定目标用户标识;
将所述目标用户标识、以及所述目标命中次数对应的用户标识进行合并处理,得到网络爬虫。
8.根据权利要求7所述的网络爬虫的识别方法,其特征在于,所述根据所述比值和总访问次数从所述用户标识集中确定目标用户标识,包括:
将所述比值和第三预设阀值进行比较分析,将所述总访问次数与第四预设阀值进行比较分析;
从所述用户标识集中筛选出比值不小于第三预设阀值,且同时总访问次数不小于第四预设阀值的用户标识,作为目标用户标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710081453.5/1.html,转载请声明来源钻瓜专利网。





