[发明专利]一种web访问异常检测方法和装置在审
申请号: | 201810158886.0 | 申请日: | 2018-02-24 |
公开(公告)号: | CN108616498A | 公开(公告)日: | 2018-10-02 |
发明(设计)人: | 党向磊;张鸿;徐太忠;惠榛;王金松;陈阳;汪立东;赵路 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 李勤媛 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 访问日志 异常检测模型 方法和装置 异常检测 拦截 超文本传输协议 机器学习领域 接收用户设备 防护能力 访问异常 机器学习 正常样本 防火墙 样本 发送 入侵 检测 应用 访问 维护 | ||
1.一种全球广域网web访问异常检测方法,其特征在于,包括:
根据多个访问日志,训练异常检测模型;其中,在所述多个访问日志中包括正常访问日志和异常访问日志;
接收用户设备发送的超文本传输协议http请求;
通过所述异常检测模型识别所述http请求是否为异常请求;
如果所述http请求为异常请求,则拦截所述http请求。
2.如权利要求1所述的方法,其特征在于,根据多个访问日志,训练异常检测模型,包括:
获取多个访问日志,并对所述多个访问日志进行数据清洗处理;
在数据清洗处理后,在所述多个访问日志中,提取各个统一资源定位符URL的特征数据;
根据每个所述访问日志的数据清洗处理结果以及每个所述URL的特征数据,为每个所述URL对应生成数据模型对象;
通过spark的决策树,对每个所述数据模型对象进行处理,并使用处理后的数据模型对象训练异常检测模型。
3.如权利要求2所述的方法,其特征在于,对所述多个访问日志进行数据清洗处理,包括:
过滤掉每个所述访问日志中的静态文件;
对所述多个访问日志中重复出现的URL进行去重处理;
对所述多个访问日志中的URL进行字母大小写一致性处理;
对所述多个访问日志中被编码的URL进行解码处理;
为每个所述访问日志添加标签,所述标签的类型包括正常样本和异常样本;
根据预先准备的正常ULR和异常URL,对正常样本对应的访问日志中的URL数量和异常样本对应的访问日志中的ULR数量进行均衡。
4.如权利要求3所述的方法,其特征在于,提取各个URL的特征数据,包括:
根据预设的参数类型,提取每个URL中的参数特征;
根据预设的异常关键字,提取每个URL的危险等级特征;
根据预设的特征字符,提取每个URL的长度特征、数量特征和类型特征。
5.如权利要求3所述的方法,其特征在于,对每个所述数据模型对象进行处理,并使用处理后的数据模型对象训练异常检测模型,包括:
将所述数据模型对象中的标签进行编号;所述数据模型对象中的标签为所述数据模型对象对应的URL所属的访问日志的标签;
将所述数据模型对象中的特征数据转化为单列特征向量;
对所述单列特征向量进行标准化处理,得到标准化特征向量;
使用所述标签的编号和标准化特征向量,训练所述异常检测模型。
6.一种web访问异常检测装置,其特征在于,包括:
训练模块,用于根据多个访问日志,训练异常检测模型;其中,在所述多个访问日志中包括正常访问日志和异常访问日志;
接收模块,用于接收用户设备发送的超文本传输协议http请求;
识别模块,用于通过所述异常检测模型识别所述http请求是否为异常请求;
拦截模块,用于在所述识别模块判定所述http请求为异常请求的情况下,拦截所述http请求。
7.如权利要求6所述的装置,其特征在于,所述训练模块,包括:
处理单元,用于获取多个访问日志,并对所述多个访问日志进行数据清洗处理;
提取单元,用于在数据清洗处理后,在所述多个访问日志中,提取各个统一资源定位符URL的特征数据;
生成单元,用于根据每个所述访问日志的数据清洗处理结果以及每个所述URL的特征数据,为每个所述URL对应生成数据模型对象;
训练单元,用于通过spark的决策树,对每个所述数据模型对象进行处理,并使用处理后的数据模型对象训练异常检测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810158886.0/1.html,转载请声明来源钻瓜专利网。