[发明专利]识别网络爬虫的方法、装置、存储介质和电子设备有效
申请号: | 201910373056.4 | 申请日: | 2019-05-06 |
公开(公告)号: | CN110245280B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 肖圣龙;武金;刁士涵 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 网络 爬虫 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种识别网络爬虫的方法、装置、存储介质和电子设备,该方法包括:获取访问数据;确定所述访问数据的特征数据,其中,所述特征数据包括用于表征访问接口的分布特征的数据和/或用于表征访问时间的分布特征的数据;根据所述特征数据确定所述访问数据为用户数据或者爬虫数据。用于解决相关技术中基于IP的访问频次进行反爬的效果较差,以及基于对外交互设备的用户行为进行爬虫识别难以在移动终端的APP上应用的技术问题。
技术领域
本公开的实施例涉及网络信息技术领域,具体地,涉及一种识别网络爬虫的方法、装置、存储介质和电子设备。
背景技术
爬虫是一种按照一定的规则,自动地抓取互联网上信息的程序或者脚本。爬虫可以帮助工作人员快速的获取网络上的大量数据,但一些恶意爬虫可能会侵犯用户隐私,或者增大服务器的负荷进而影响其提供正常的服务,因此有必要采取一定的反爬虫手段来阻止恶意爬虫的使用。
相关技术中,采用如下两种方法进行爬虫的识别:
一种方法是基于IP(Internet Protocol Address)的访问频次进行爬虫识别,对于不同的IP,通过统计每个IP的访问频次,当访问频次大于设定的阈值时,将其对应的IP进行加黑,拦截后续的访问数据。但是,对于有足够IP储备的爬虫,可以限制所拥有的每个IP的访问数量,如此,该方法就难以达到较好的反爬的效果。
另一种方法是基于对外交互设备的用户行为进行爬虫识别,该方法采集鼠标和键盘等对外交互设备的移动轨迹,并利用爬虫数据样本和正常用户数据进行训练,得到反爬模型用于线上识别爬虫,具有较高的识别准确率。但是,该方法依赖于网页前端JavaScript的信息采集,难以在移动终端的APP(应用程序,Application)上应用。
发明内容
本公开的实施例提供识别网络爬虫的方法、装置、存储介质和电子设备。
本公开实施例的第一方面,提供一种识别网络爬虫的方法,所述方法包括:
获取访问数据;
确定所述访问数据的特征数据,其中,所述特征数据包括用于表征访问接口的分布特征的数据和/或用于表征访问时间的分布特征的数据;
根据所述特征数据确定所述访问数据为用户数据或者爬虫数据。
可选地,所述根据所述特征数据确定所述访问数据为用户数据或者爬虫数据,包括:
将所述特征数据输入反爬虫模型,得到所述反爬虫模型输出的用于表征所述访问数据为用户数据或者爬虫数据的识别结果,其中,所述反爬虫模型是根据被标记为用户数据或爬虫数据的历史访问数据的特征数据训练得到的。
可选地,所述反爬虫模型是通过如下方式训练得到:
获取历史访问数据,所述历史访问数据被标记为用户数据或爬虫数据;
确定每一所述历史访问数据的特征数据;
将每一所述历史访问数据的标记作为该历史访问数据的特征数据的标记,并将每一所述历史访问数据的特征数据以及该特征数据的标记作为模型训练样本进行训练,以得到所述反爬虫模型。
可选地,所述确定所述访问数据的特征数据,包括:
确定所述访问数据在至少一个维度上的特征值,所述维度包括访问接口维度或者接口访问时间维度;
针对所述特征值所处维度对应的多个有序区间中的每一区间,根据该特征值是否处于该区间,确定该特征值所处维度对应的特征向量中对应该区间的元素值,该特征向量中的每一元素与所述多个有序区间中的每一区间一一对应,其中,每一维度对应的有序区间是基于历史访问数据在该维度上的特征值进行划分的,所述特征数据包括所述特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910373056.4/2.html,转载请声明来源钻瓜专利网。