[发明专利]一种基于半监督的反爬虫系统及设计方法有效
| 申请号: | 202010655940.X | 申请日: | 2020-07-09 |
| 公开(公告)号: | CN111914905B | 公开(公告)日: | 2021-07-20 |
| 发明(设计)人: | 简军;高熙;蔡月月 | 申请(专利权)人: | 北京人人云图信息技术有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/56;G06N20/00 |
| 代理公司: | 北京中创云知识产权代理事务所(普通合伙) 11837 | 代理人: | 肖佳 |
| 地址: | 100191 北京市海淀区北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 爬虫 系统 设计 方法 | ||
1.一种基于半监督的反爬虫系统设计方法,其特征在于,包括以下步骤:
A1:衍生特征向量;基于请求数据衍生出需要的特征向量,所述特征向量包含请求的参数特征和行为特征;具体包括:
从请求数据中提取请求时段,次数,时间间隔,请求内容,访问路径集合,请求中的cookie,UserAgent和headers所包含的信息;
对这些原始的信息进行数据的衍生,在衍生的过程中将特征区分为用户维度和访问维度,用户维度包含用户设备、指纹和ip,能够粗略的标识不同用户的维度;访问维度包含请求的url、请求的时间、cookie、UserAgent和referer;
将用户维度和访问维度交叉组合,聚类衍生,得到数百个衍生的维度;
计算衍生的维度的提升度,根据提升度的分布选择筛选维度的阈值,筛出有效的维度特征;
A2:无监督聚类成簇;通过无监督聚类算法对请求行为聚类得到不同的簇,簇内间距低于设定的第一阈值,簇与簇之间的间距高于设定的第二阈值;无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种;
A3:专家规则评估;基于现有数据和专家经验,制定符合指标要求的专家规则;通过专家规则对不同的簇行为计算爬虫概率;爬虫概率高于设定的第三阈值的行为,经过观察,转化为专家规则;
A4:强化规则;对于概率在设定范围内的请求行为,作为有监督的机器学习的输入维度进行训练和预测;
A5:机器学习;
A6:输出识别爬虫概率结果。
2.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法,其特征在于,所述步骤A2中的无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种,所述步骤A2的具体过程为:
先排查异常点进行,异常点包含不符合业务逻辑或不符合数据分布的点;
采用融合聚类方法,融合采用投票方式,通过遍历簇的个数,寻找轮廓系数最接近1的分类结果,且分类结果需要满足在两种以上的聚类算法中,有更多的点的簇类别保持一致。
3.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法,其特征在于,所述步骤A3的具体过程为:
通过数据分析和反爬专家经验制定专家规则;
以专家规则为标准来计算簇的爬虫概率;
根据各类簇的概率分布设定第三阈值,爬虫概率高于第三阈值的簇,进行轮廓行为的提取,轮廓行为提取是使用最少的特征维度保证最多的簇内点落在此轮廓行为里;
筛选稳定性较高的爬虫轮廓行为,取不同的时间窗口进行psi的稳定性计算,对于不稳定的轮廓行为保存下来后面的系统中再用;对于稳定的轮廓行为做准确,召回和误杀指标的观察,经过观察,符合专家规则的指标要求则转化为专家规则,不符合专家规则的指标要求则保存下来后面再用。
4.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法,其特征在于,所述步骤A5的机器学习的处理算法包括决策树、随机森林或xgboost中的至少一种。
5.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法,其特征在于,所述步骤A6得到的识别爬虫概率结果由高维的机器学习系统和低维的规则系统综合得到,具体过程为:将步骤A5的输出结果和步骤A3得到的五十条专家规则作为步骤A6的输入,用逻辑回归的模型学习最佳权重参数,得到综合的精准的爬虫概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京人人云图信息技术有限公司,未经北京人人云图信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010655940.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含钛H型钢冶炼用合成渣及其制备方法
- 下一篇:一种猪眼球的角膜切割装置





