[发明专利]一种动态检测失效流量的网络爬虫方法有效
申请号: | 202110086472.3 | 申请日: | 2021-01-22 |
公开(公告)号: | CN112765437B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 秦康;赵小敏 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/906;G06F16/955;G06F16/22;G06N3/04;G06N3/08 |
代理公司: | 杭州之江专利事务所(普通合伙) 33216 | 代理人: | 张慧英 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 检测 失效 流量 网络 爬虫 方法 | ||
1.一种动态检测失效流量的网络爬虫方法,其特征在于,包括如下步骤:
(1)获取目标应用的网络请求信息,通过代理的方式提取网络请求特征,构建动态检测失效流量模型的数据集;
(2)构建机器学习BP神经网络的分类模型,将步骤(1)中的部分数据集作为训练集,剩余部分作为测试集,得到动态检测失效流量的BP神经网络模型;其中得到动态检测失效流量的BP神经网络模型的实现方法如下:
BP神经网络包括输入层、隐藏层和输出层;
1)输入层和输出层设计,模型将请求类型X1,返回数据量大小X2,请求次数X3,请求协议类型X4,请求响应时间X5,Cookie被使用次数X6作为模型的输入,采用3层BP神经网络结构,输出层单个神经元是流量状态的判定结果;
2)输入层6个神经元是流量的对应信息,输出层单个神经元代表流量状态的判定结果,隐含层神经元个数为:
其中,n和m分别代表输入神经元和输出神经元的个数,a为常数;
3)流量的对应信息输入为xj,各层之间的权值为wij,隐含层的阈值为aj,则隐含层的输出为:
其中,l为隐含层神经元个数;
4)模型中采用的激活函数表达式为:
5)根据隐含层输出的Hj,输出层和隐含层之间连接的权值和阈值分别为w和b,得到输出结果T,其表达式为:
使用梯度下降算法不断调整模型中各层的输入权重和偏置,获得最佳的预测结果,动态检测失效流量模型建立完成;
(3)分析网络请求,将请求相关的URL和Cookie数据持久化存储;
(4)对数据库中的请求URL和Cookie读取并加入各自的队列中,分别从队列中取出请求的相关URL和Cookie进行封装,发送请求;
(5)利用步骤(2)得到的动态检测失效流量模型,识别判断步骤(4)中请求的返回信息,对失效的流量信息则返回步骤(4),将其URL重新加入步骤(4)的队列中等待重新封装;
(6)计算返回数据包中内容信息的哈希值并判断是否重复;
(7)对返回不重复的内容信息进行持久化存储。
2.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(1)具体如下:
(1.1)选取聚焦爬虫的目标应用,通过分析软件设置代理软件的证书,配置代理接口,在目标应用的系统中安装证书;
(1.2)对网络爬虫的目标系统进行模拟点击事件,对获取的数据包分析并提取,构建一个可被BP神经网络接收的输入向量:
其中,X1、X2、X3、X4、X5、X6分别代表提取请求的类型、返回数据量大小、请求次数、请求协议类型、请求响应时间、Cookie被使用次数,通过标注的方式标记该数据包的预测结果,构建出动态检测失效流量模型的数据集。
3.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(3)具体包括:
(3.1)将请求相关的URL和Cookie数据持久化存储,通过抓包分析软件分析URL及其各参数的含义,提取其请求URL和请求参数信息si,相关账户的Cookie信息Ci;
(3.2)通过局部洗牌法将si进行重新排序并保存至Redis缓存数据库的队列中,如下式所示:
Vi=i+r mod(n-i),i=1,2,3,...,n
其中,Vi是URL索引洗牌之后的索引位置,i是URL索引,n是索引的个数;
(3.3)将请求URL和请求参数信息Vi,Cookie信息Ci分别持久化至Redis缓存数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110086472.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种精密压力调节阀
- 下一篇:一种高散热多通道扁管冷凝器自动化加工设备