[发明专利]识别网络爬虫的方法、装置、存储介质和电子设备有效
| 申请号: | 201910373056.4 | 申请日: | 2019-05-06 |
| 公开(公告)号: | CN110245280B | 公开(公告)日: | 2021-03-02 |
| 发明(设计)人: | 肖圣龙;武金;刁士涵 | 申请(专利权)人: | 北京三快在线科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951 |
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
| 地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 识别 网络 爬虫 方法 装置 存储 介质 电子设备 | ||
1.一种识别网络爬虫的方法,其特征在于,所述方法包括:
获取访问数据;
确定所述访问数据的特征数据,其中,所述特征数据包括用于表征访问接口的分布特征的数据和/或用于表征访问时间的分布特征的数据,所述表征访问接口的分布特征的数据包括接口类型比例分布、接口流量分布和接口流量比例分布中的至少一者,所述表征访问时间的分布特征的数据包括访问时长分布、访问时间秒级分布和访问秒级数量分布中的至少一者;
根据所述特征数据确定所述访问数据为用户数据或者爬虫数据;
其中,所述根据所述特征数据确定所述访问数据为用户数据或者爬虫数据,包括:
将所述特征数据输入反爬虫模型,得到所述反爬虫模型输出的用于表征所述访问数据为用户数据或者爬虫数据的识别结果,其中,所述反爬虫模型是根据被标记为用户数据或爬虫数据的历史访问数据的特征数据周期训练得到的;
所述确定所述访问数据的特征数据,包括:
根据历史访问数据中的接口信息以及接口访问时间信息确定访问的接口数量随时间变化的离散序列;
确定所述离散序列中每一离散点的一阶导数和/或二阶导数;
所述特征数据包括由所述离散序列中每一离散点的一阶导数组成的特征向量和/或由所述离散序列中每一离散点的二阶导数组成的特征向量。
2.根据权利要求1所述的方法,其特征在于,所述反爬虫模型是通过如下方式训练得到:
获取历史访问数据,所述历史访问数据被标记为用户数据或爬虫数据;
确定每一所述历史访问数据的特征数据;
将每一所述历史访问数据的标记作为该历史访问数据的特征数据的标记,并将每一所述历史访问数据的特征数据以及该特征数据的标记作为模型训练样本进行训练,以得到所述反爬虫模型。
3.根据权利要求1所述的方法,其特征在于,所述确定所述访问数据的特征数据,包括:
确定所述访问数据在至少一个维度上的特征值,所述维度包括访问接口维度或者接口访问时间维度;
针对所述特征值所处维度对应的多个有序区间中的每一区间,根据该特征值是否处于该区间,确定该特征值所处维度对应的特征向量中对应该区间的元素值,该特征向量中的每一元素与所述多个有序区间中的每一区间一一对应,其中,每一维度对应的有序区间是基于历史访问数据在该维度上的特征值进行划分的,所述特征数据包括所述特征向量。
4.根据权利要求1所述的方法,其特征在于,所述确定所述访问数据的特征数据,包括:
针对所述访问数据中的每一接口,根据该接口是否为接口词向量中任一元素对应的接口,确定所述访问数据在接口分布维度上的特征向量中的元素值,其中,所述接口分布维度上的特征向量与所述接口词向量中的元素一一对应,所述接口词向量是根据历史访问数据中每一接口的访问频次确定的,所述特征数据包括所述接口分布维度上的特征向量。
5.根据权利要求1所述的方法,其特征在于,所述特征数据包括所述访问数据在至少一个维度上的特征值,所述根据所述特征数据确定所述访问数据为用户数据或者爬虫数据,包括:
判断所述至少一个维度上的特征值是否满足预设的爬虫判定条件;
若所述至少一个维度上的特征值满足预设的爬虫判定条件,则确定所述访问数据为爬虫数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910373056.4/1.html,转载请声明来源钻瓜专利网。





