[发明专利]机器学习样本集的自动化提取方法和计算机可读存储介质在审
| 申请号: | 202010440435.3 | 申请日: | 2020-05-22 |
| 公开(公告)号: | CN111639277A | 公开(公告)日: | 2020-09-08 |
| 发明(设计)人: | 陈建勇;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
| 主分类号: | G06F16/955 | 分类号: | G06F16/955;G06N20/00 |
| 代理公司: | 杭州华进联浙知识产权代理有限公司 33250 | 代理人: | 龙伟 |
| 地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器 学习 样本 自动化 提取 方法 计算机 可读 存储 介质 | ||
本申请涉及一种机器学习样本集的自动化提取方法、计算机设备和计算机可读存储介质。其中,该机器学习样本集的自动化提取方法包括:按照单位时间从网站访问日志中提取访问数据集;从访问数据集中提取出每个单位时间内源IP地址和请求URL均不同的目标访问数据;将目标访问数据标记为正常访问数据,并存入机器学习样本集。通过本申请,解决了机器学习样本的准备过程效率低下的问题,提高了机器学习样本的准备效率。
技术领域
本申请涉及数据处理领域,特别是涉及机器学习样本集的自动化提取方法、 计算机设备和计算机可读存储介质。
背景技术
当WEB应用越来越为丰富的同时,WEB服务器以其强大的计算能力、处 理性能及蕴含的较高价值逐渐成为主要攻击目标。SQL注入、网页篡改、网页 挂马等安全事件,频繁发生。
企业等用户一般采用防火墙作为安全保障体系的第一道防线。但是,在现实 中,他们存在这样那样的问题,由此产生了Web应用防护系统(Web Application Firewall,简称为WAF)。WAF代表了一类新兴的信息安全技术,用以解决诸如 防火墙一类传统设备束手无策的Web应用安全问题。与传统防火墙不同,WAF 工作在应用层,因此对Web应用防护具有先天的技术优势。基于对Web应用业 务和逻辑的深刻理解,WAF对来自Web应用程序客户端的各类请求进行内容检 测和验证,确保其安全性与合法性,对非法的请求予以实时阻断,从而对各类网 站站点进行有效防护。
当前WAF的主要防护手段,依靠的是基于规则的保护。基于规则的保护可 以提供各种Web应用的安全规则,WAF生产商会维护这个规则库,并时时为其 更新。用户可以按照这些规则对应用进行全方面检测。采用基于规则的防护方法, 经常会出现漏报和误报。因为其本质上是基于已知的特征在网站流量中来进行 匹配的,难免会带来误报和漏报。
在WAF中,使用机器学习模型来对所有访问日志的安全性进行学习,然后 用学习好的机器学习模型来预测访问请求的安全性,从而实现访问请求的安全 性检测是一种能够发现未知特征的安全风险的有效方式。
然而,机器学习模型的训练通常采用监督学习方法,需要使用大量的样本来 训练机器学习模型,样本的数量通常在数千至数万不等。以最简单的二分类机器 学习模型为例,二分类机器学习的样本可以仅使用正样本、仅使用负样本或者同 时使用正样本和负样本。对于每个样本,通常都由人工判断这个样本的分类标签, 并人工标记标签。
目前针对相关技术中需要人工判断样本的分类标签并进行人工标记标签导 致的机器学习样本的准备需要耗费大量的人力,并且效率低下的问题,尚未提出 有效的解决方案。
发明内容
本申请实施例提供了一种机器学习样本集的自动化提取方法、计算机设备 和计算机可读存储介质,以至少解决相关技术中机器学习样本的准备过程效率 低下的问题。
第一方面,本申请实施例提供了一种机器学习样本集的自动化提取方法,包 括:按照单位时间从网站访问日志中提取访问数据集;从所述访问数据集中提取 出每个单位时间内源IP地址和请求URL均不同的目标访问数据;将所述目标 访问数据标记为正常访问数据,并存入机器学习样本集。
在其中一些实施例中,按照单位时间从网站访问日志中提取访问数据集包 括:从所述网站访问日志中提取一个单位时间内的访问数据,并将所述一个单位 时间内的访问数据作为所述访问数据集。
在其中一些实施例中,按照单位时间从网站访问日志中提取访问数据集包 括:从所述网站访问日志中提取访问数据,并将所述访问数据按照所述单位时间 进行分片,得到多个访问数据集。
在其中一些实施例中,在按照单位时间从网站访问日志中提取访问数据集 之后,所述方法还包括:从所述访问数据集中筛除具有预设特征的访问数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010440435.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:操作系统对位置卡的支持
- 下一篇:一种雷达自适应目标检测方法及装置





