[发明专利]一种基于半监督的反爬虫系统及设计方法有效

专利信息
申请号: 202010655940.X 申请日: 2020-07-09
公开(公告)号: CN111914905B 公开(公告)日: 2021-07-20
发明(设计)人: 简军;高熙;蔡月月 申请(专利权)人: 北京人人云图信息技术有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06F21/56;G06N20/00
代理公司: 北京中创云知识产权代理事务所(普通合伙) 11837 代理人: 肖佳
地址: 100191 北京市海淀区北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 爬虫 系统 设计 方法
【说明书】:

发明公开了一种基于半监督的反爬虫系统及设计方法,包括衍生特征向量,无监督聚类成簇,专家规则评估,强化规则,机器学习,输出识别爬虫概率结果;通过无监督算法对请求行为进行聚类得到不同的簇;通过专家规则对不同的簇行为进行爬虫概率计算;对于概率高于某个阈值的行为添加到规则系统里;对于概率在某个阈值范围的行为作为维度送进机器学习系统进行训练和预测,能够解决爬虫行为多变的问题并提高防护性能,降低误杀风险。

技术领域

本发明属于计算机、网络数据安全和数据分析技术领域,尤其涉及一种基于半监督的反爬虫系统及设计方法。

背景技术

大数据时代,网络爬虫的现象与日俱增,网络爬虫的形式和方法也是千变万化,有的按照一定的规则,自动的抓取网页信息,还有的人为爬取一些用户信息来用于商业用途。如此一来,肆意爬取给服务器造成了很大的压力,而且不能给该网站带来新的用户,造成了很多成本的浪费。于是,反爬虫也越来越受到严峻的挑战。而现有反爬方法通常采用的分析url路径,User-Agent,hearders,cookie等字段以及流量统计来制定规则做决策,这样的方式虽然可以起到一定的效果,但是随着爬取方式的变化,这种反爬虫方法不能及时发现,仍然不能起到有效的防护。

发明内容

为了解决上述已有技术存在的不足,针对变化的爬虫行为进行及时发现和确定,做到精准的防护。本发明提出一种基于半监督的反爬虫系统及设计方法。本发明的具体技术方案如下:

一种基于半监督的反爬虫系统设计方法,其特征在于,包括以下步骤:

A1:衍生特征向量;基于请求数据衍生出需要的特征向量,所述特征向量包含请求的参数特征和行为特征;

A2:无监督聚类成簇;通过无监督聚类算法对请求行为聚类得到不同的簇,簇内间距低于设定的第一阈值,簇与簇之间的间距高于设定的第二阈值;无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种;

A3:专家规则评估;基于现有数据和专家经验,制定符合指标要求的专家规则;通过专家规则对不同的簇行为计算爬虫概率;爬虫概率高于设定的第三阈值的行为,经过观察,转化为专家规则;

A4:强化规则;对于概率在设定范围内的请求行为,作为有监督的机器学习的输入维度进行训练和预测;

A5:机器学习;

A6:输出识别爬虫概率结果;

进一步地,所述步骤A1的具体过程为:

从请求数据中提取请求时段,次数,时间间隔,请求内容,访问路径集合,请求中的cookie,UserAgent和headers所包含的信息;

对这些原始的信息进行数据的衍生,在衍生的过程中将特征区分为用户维度和访问维度,用户维度包含用户设备、指纹和ip,能够粗略的标识不同用户的维度;访问维度包含请求的url、请求的时间、cookie、UserAgent和referer;

将用户维度和访问维度交叉组合,聚类衍生,得到数百个衍生的维度;

计算衍生的维度的提升度,根据提升度的分布选择筛选维度的阈值,筛出有效的维度特征。

进一步地,所述步骤A2中的无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种,所述步骤A2的具体过程为:

先排查异常点进行,异常点包含不符合业务逻辑或不符合数据分布的点;

采用融合聚类方法,融合采用投票方式,通过遍历簇的个数,寻找轮廓系数最接近1的分类结果,且分类结果需要满足在两种以上的聚类算法中,有更多的点的簇类别保持一致。例如:假设分为两类簇,用三种聚类算法进行投票,对于第一种分类结果,90%的点的簇类别没有发生变化,对于第二种分类结果,80%的点的簇类别没有发生变化,那么认为第一种分类结果更稳定可靠。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京人人云图信息技术有限公司,未经北京人人云图信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010655940.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top