[发明专利]爬虫检测的方法及装置有效
| 申请号: | 201710939659.7 | 申请日: | 2017-09-30 |
| 公开(公告)号: | CN109600272B | 公开(公告)日: | 2022-03-18 |
| 发明(设计)人: | 潘峰 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | H04L43/04 | 分类号: | H04L43/04;G06F16/951 |
| 代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 爬虫 检测 方法 装置 | ||
本发明公开了一种爬虫检测的方法及装置,涉及互联网技术领域,为解决现有现有的爬虫检测的方式无法更有效进行爬虫的识别检测的问题而发明。本发明的方法包括:接收访问者对网站的访问请求后,获取所述访问请求中访问的目标链接;判断所述目标链接是否为预设陷阱链接;若所述目标链接为预设陷阱链接,则判断所述访问请求中是否携带有访问来源参考refer字段;根据判断的结果确定所述访问者是否为爬虫。本发明适合应用在网站爬虫检测的过程中。
技术领域
本发明涉及互联网技术领域,尤其涉及一种爬虫检测的方法及装置。
背景技术
随着大数据时代的来临,数据的价值越来越大,而爬虫作为一种获取互联网数据的方式,其运用也越来越广泛。对于一个网站来说,爬虫的爬取可以有效提高网站的搜索引擎优化(SearchEngineOptimization,SEO),增加网站内容的曝光度。然而,爬虫的爬取也存在一些弊端,具体的由于爬虫的爬取必定会占用一定的资源,尤其是一些恶意爬虫会占用大量的资源,然而网站服务器的处理能力和网络带宽等资源都是有限的,所以在资源总量固定的前提下,爬虫占用的资源越多,那么属于访客的资源就越少,这样就导致了网站的服务能力下降,甚至导致网站瘫痪;另外一些恶意爬虫还会对网站进行攻击。因此,对于网站来说,需要对爬虫的爬取进行限制,而对爬虫的爬取限制,首先要进行爬虫检测。
爬虫检测的思想是通过对访问者访问行为进行总结归纳,整理出一定的规则,来判断一次访问行为是否为爬虫访问。目前常用的两种爬虫检测方法为:第一种,记录访问者的IP地址以及一个IP地址在一定时间内的访问次数,如果访问次数超过某个阈值,那么认定其为爬虫;第二种,在页面上设置一些隐藏的链接,这些链接对正常的用户是不可见的,而一般爬虫爬取时分析的是网页源代码,这些链接在源代码中是可见的,如果网站收到对这些隐藏链接的访问,那么就可以认定当前访问为爬虫。
对于上述第一种爬虫检测的方法,对于爬虫主动的控制爬取频率,或者频繁的更换IP来访问的情况,则无法识别爬虫;对于第二种爬虫检测的方法,目前已经有部分爬虫已经可以支持识别隐藏链接的能力,因此对于这种爬虫也无法识别。综上,现有的爬虫检测的方式无法更有效进行爬虫的识别检测。
发明内容
鉴于上述问题,本发明提供一种爬虫检测的方法及装置,为了提供一种更有效的爬虫检测的方式。
为解决上述技术问题,第一方面,本发明提供了一种爬虫检测的方法,该方法包括:
接收访问者对网站的访问请求后,获取所述访问请求中访问的目标链接;
判断所述目标链接是否为预设陷阱链接;
若所述目标链接为预设陷阱链接,则判断所述访问请求中是否携带有访问来源参考refer字段;
根据判断的结果确定所述访问者是否为爬虫。
可选的,在接收访问者对网站的访问请求之前,所述方法还包括:
将出现在网站中的预设页面上的指定链接设置为预设陷阱链接;
将所述预设页面对应的标识信息确定为预设refer字段值。
可选的,所述方法还包括:
将所有预设陷阱链接存储到陷阱链接库中;
所述判断所述目标链接是否为预设陷阱链接,包括:
将所述目标链接与所述陷阱链接库中的预设陷阱链接比对,确定所述目标链接是否为预设陷阱链接。
可选的,所述根据判断的结果确定所述访问者是否为爬虫,包括:
若所述访问请求中没有携带refer字段,则确定所述访问者为爬虫。
可选的,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710939659.7/2.html,转载请声明来源钻瓜专利网。





