[发明专利]一种基于运行环境特征识别的反爬虫方法及系统有效

专利信息
申请号: 201710203203.4 申请日: 2017-03-30
公开(公告)号: CN107426148B 公开(公告)日: 2020-07-31
发明(设计)人: 夏珺峥;蒋平川 申请(专利权)人: 成都优易数据有限公司
主分类号: H04L29/06 分类号: H04L29/06
代理公司: 成都弘毅天承知识产权代理有限公司 51230 代理人: 李春芳;马林中
地址: 611730 四川省成都市郫县德源镇(菁*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 运行 环境 特征 识别 爬虫 方法 系统
【说明书】:

发明公开一种基于运行环境特征识别的反爬虫方法及系统,本发明涉及反爬虫技术领域,解决爬虫程序识别及反爬策略实施的技术问题。主要包括产生新策略包和用于新策略包运行的选择码,利用新策略包更新服务器当前策略包并构建关于新策略包运行特征数据的特征类别白名单;发送选择码至客户端,然后发送应答请求至客户端;由客户端根据选择码选择地运行策略包进行服务器应答,获得对应选择码的特征数据并返回特征数据至服务器;分析选择码和选择码所对应的特征数据,计算出客户端的特征类别并判断是否属于特征类别白名单,对不属于特征类别白名单的客户端实施访问控制。

技术领域

本发明涉及爬虫识别和反爬虫技术领域,具体涉及一种基于运行环境特征识别的反爬虫方法及系统。

背景技术

随着大数据时代的到来,数据变得越来越重要。从数据中分析出有价值的数据,首先需要大量的数据。互联网上的数据由于其公开性、海量性、广泛性受到了企业和个人的关注。许多网络爬虫被开发利用,采集互联网上的各种数据。但是,网络爬虫会带来许多负面影响。网络爬虫程序会短时间大量请求服务器,造成服务器性能下降;一些爬虫会恶意采集大量公开数据,进行汇总售卖,侵犯版权。还有一些网站的数据具有很高的价值密度,或者企业不希望自己公开的信息被网络爬虫轻易采集,都实施了不同的反爬虫措施,如验证码、会话检查、访问频率等来区分是网络爬虫还是真实地人为对系统的访问。但是网络爬虫多种多样,也采取了许多突破反爬虫的技术手段。如通过机器识别、人工打码等识别验证码,通过拼接访问请求等绕过会话检查以及采用地址代理等模拟多用户访问。通过对爬虫运行环境的特征识别,能够有效的识别网络爬虫,防止数据泄露。

发明内容

针对上述现有技术,本发明目的在于提供一种基于运行环境特征识别的反爬虫方法及系统,解决现有技术爬虫实施方不断地访问服务器并大量获取信息导致服务器运行速度慢且还存在信息资源被批量获取窃取等技术问题。

为达到上述目的,本发明采用的技术方案如下:

一种反爬虫方法,包括以下步骤:

步骤1、产生新策略包和用于新策略包运行的选择码,利用新策略包更新服务器当前策略包并构建关于新策略包运行特征数据的特征类别白名单,可以是通过独立服务器或本地服务器进行产生操作;

步骤2、发送选择码至客户端,然后发送应答请求至客户端,可以是通过独立服务器或本地服务器进行发送或接收操作;

步骤3、由客户端根据选择码选择地运行策略包进行服务器应答,获得对应选择码的特征数据并返回特征数据至服务器;

步骤4、分析选择码和选择码所对应的特征数据,计算出客户端的特征类别并判断是否属于特征类别白名单,对不属于特征类别白名单的客户端实施访问控制。

上述方法中,所述的步骤1,周期产生新策略包和用于新策略包运行的选择码。

上述方法中,所述的步骤4,包括以下步骤:

步骤4.1、由存储模块在预定的时间区间内接收特征数据;

步骤4.2、通过服务器处理模块访问存储模块并分析时间区间内的特征数据,计算出客户端的特征类别并判断是否属于特征类别白名单;

步骤4.2.1、对属于特征类别白名单的客户端标记合法,再跳转至步骤1;

步骤4.2.2、对不属于特征类别白名单的客户端实施访问控制。

一种基于运行环境特征识别的反爬虫方法,包括以下步骤:

步骤1、在服务器端周期产生具有不同运行时间程序函数作为元素的函数矩阵和用于映射字符串至函数矩阵中不同元素的选择子,并设置运行环境特征类别的白名单,再通过函数矩阵更新服务器的当前函数矩阵,在服务器端生成随机的字符串作为选择码,再发送选择码和应答请求至客户端;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司,未经成都优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710203203.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top