[发明专利]一种动态检测失效流量的网络爬虫方法有效

专利信息
申请号: 202110086472.3 申请日: 2021-01-22
公开(公告)号: CN112765437B 公开(公告)日: 2022-05-17
发明(设计)人: 秦康;赵小敏 申请(专利权)人: 浙江工业大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/906;G06F16/955;G06F16/22;G06N3/04;G06N3/08
代理公司: 杭州之江专利事务所(普通合伙) 33216 代理人: 张慧英
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 动态 检测 失效 流量 网络 爬虫 方法
【权利要求书】:

1.一种动态检测失效流量的网络爬虫方法,其特征在于,包括如下步骤:

(1)获取目标应用的网络请求信息,通过代理的方式提取网络请求特征,构建动态检测失效流量模型的数据集;

(2)构建机器学习BP神经网络的分类模型,将步骤(1)中的部分数据集作为训练集,剩余部分作为测试集,得到动态检测失效流量的BP神经网络模型;其中得到动态检测失效流量的BP神经网络模型的实现方法如下:

BP神经网络包括输入层、隐藏层和输出层;

1)输入层和输出层设计,模型将请求类型X1,返回数据量大小X2,请求次数X3,请求协议类型X4,请求响应时间X5,Cookie被使用次数X6作为模型的输入,采用3层BP神经网络结构,输出层单个神经元是流量状态的判定结果;

2)输入层6个神经元是流量的对应信息,输出层单个神经元代表流量状态的判定结果,隐含层神经元个数为:

其中,n和m分别代表输入神经元和输出神经元的个数,a为常数;

3)流量的对应信息输入为xj,各层之间的权值为wij,隐含层的阈值为aj,则隐含层的输出为:

其中,l为隐含层神经元个数;

4)模型中采用的激活函数表达式为:

5)根据隐含层输出的Hj,输出层和隐含层之间连接的权值和阈值分别为w和b,得到输出结果T,其表达式为:

使用梯度下降算法不断调整模型中各层的输入权重和偏置,获得最佳的预测结果,动态检测失效流量模型建立完成;

(3)分析网络请求,将请求相关的URL和Cookie数据持久化存储;

(4)对数据库中的请求URL和Cookie读取并加入各自的队列中,分别从队列中取出请求的相关URL和Cookie进行封装,发送请求;

(5)利用步骤(2)得到的动态检测失效流量模型,识别判断步骤(4)中请求的返回信息,对失效的流量信息则返回步骤(4),将其URL重新加入步骤(4)的队列中等待重新封装;

(6)计算返回数据包中内容信息的哈希值并判断是否重复;

(7)对返回不重复的内容信息进行持久化存储。

2.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(1)具体如下:

(1.1)选取聚焦爬虫的目标应用,通过分析软件设置代理软件的证书,配置代理接口,在目标应用的系统中安装证书;

(1.2)对网络爬虫的目标系统进行模拟点击事件,对获取的数据包分析并提取,构建一个可被BP神经网络接收的输入向量:

其中,X1、X2、X3、X4、X5、X6分别代表提取请求的类型、返回数据量大小、请求次数、请求协议类型、请求响应时间、Cookie被使用次数,通过标注的方式标记该数据包的预测结果,构建出动态检测失效流量模型的数据集。

3.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(3)具体包括:

(3.1)将请求相关的URL和Cookie数据持久化存储,通过抓包分析软件分析URL及其各参数的含义,提取其请求URL和请求参数信息si,相关账户的Cookie信息Ci

(3.2)通过局部洗牌法将si进行重新排序并保存至Redis缓存数据库的队列中,如下式所示:

Vi=i+r mod(n-i),i=1,2,3,...,n

其中,Vi是URL索引洗牌之后的索引位置,i是URL索引,n是索引的个数;

(3.3)将请求URL和请求参数信息Vi,Cookie信息Ci分别持久化至Redis缓存数据库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110086472.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top