[发明专利]一种基于机器学习的实时日志检测预警方法及系统在审
申请号: | 202210385799.5 | 申请日: | 2022-04-13 |
公开(公告)号: | CN114816909A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 杨亦松;张云;贾琼;吴磊;陈欣;王亚洲;刁松 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06N20/00 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 实时 日志 检测 预警 方法 系统 | ||
1.一种基于机器学习的实时日志检测预警方法,其特征在于,包括以下步骤:
首先采集模板化的日志数据,模板日志来源于不同的安全设备,在离线学习阶段,通过数据流处理技术对模板日志进行数据清洗,去除重复数据,同时补充空缺日志字段;之后根据预设专家经验对清洗后的日志数据进行特征提取,即在每一时间段中将所采集的模板日志进行特征提取,提取的内容包括日志特征和累计特征,所述日志特征包括IP地址、MAC地址,网络流量基线日志和其他非监督网络日志处理平台提供的特征日志;所述累计特征包括,该时间段内密码累计输入次数、IP累计登录次数这些需要累加计算的日志特征;在得到特征化的网络日志后,对这些网络日志依据预设专家经验进行数据标注,标注类型包括威胁日志、正常日志两类;
此时得到的标注日志所包含的特征是多样的,既包括数字类型特征,也包括字符特征,甚至文本格式特征,接着使用自然语言处理技术对这些特征进行词向量编码,将语义特征转化为可度量的距离,其中先对日志特征进行ONE-HOT编码,得到日志特征的词向量,通过WORD2VEC对ONE-HOT编码进行二次编码,既考虑日志特征间的位置信息,也考虑日志特征语义之间的相关性,同时完成词向量的降维;
之后使用XGBOOST模型对日志的词向量进行组合特征提取,在得到XGBOOST模型训练的日志特征向量后,选用逻辑回归模型构建预警模型,完成预警规则的自动化;在构建预警模型时,先在一个预设通用的日志特征训练集下训练得到一个通用的预警模型,称为通用评估模型,通用评估模型部署可迁移到归一化模板相同的任何安全环境中,部署后可进行安全预警,将这种迁移称为迁移学习模型;
在部署通用评估模型后进入在线服务阶段,在线服务阶段中模板化日志数据是按照时间序列顺序接收的,首先按照离线学习阶段的数据清洗和特征提取的方法对模板化日志数据进行处理得到特征日志;然后使用离线学习阶段中训练得到的WORD2VEC词向量对照表,将特征日志转化为词向量;之后调用离线学习阶段中构建的XGBOOST提升树模型,对特征日志提取组合特征,并将提取到的组合特征加入到特征日志中,作为特征日志的一维新特征,最后调用离线学习阶段训练好的逻辑回归模型对特征日志进行预警分析,产生告警标签,完成在线预警;
在线学习阶段,获取在线服务阶段所反馈的告警标签,告警标签包括威胁日志和正常日志两种类型,将该过程定义为在线学习阶段中的告警反馈,然后结合专家经验找到告警反馈中威胁日志相关的模板日志,之后对模板日志进行特征提取,特征提取过程和离线学习阶段的方法相同,之后结合之前通用评估模型的日志特征训练集进行模型迭代训练,训练过程和通用评估模型的训练方法一致,按照离线学习阶段的数据标注、词向量编码、组合特征提取这些步骤构训练新的word2vec词向量对照表、XGBOOST提升树和逻辑回归模型,训练完成后,在线服务阶段将加载新的word2vec词向量对照表、XGBOOST提升树和逻辑回归模型进行预警分析。
2.如权利要求1所述的方法,其特征在于,离线学习阶段和在线服务阶段的数据清洗方式具体包括:
(1)空缺值的清洗:忽略元组,人工填写空缺值,使用一个全局变量填充空缺值,使用属性的平均值、中问值、最大值、最小值的概率统计函数值来填充空缺值,其中将空缺值设置为null字段;
(2)重复数据的清洗:消除重复记录的思想是“排序和合并”,先将数据库中的记录排序,然后通过比较邻近记录是否相同来检测记录是否重复,确定重复日志数据中不包含时序特征和累计特征后再清除重复日志,清除重复日志算法为优先队列算法;
(3)错误数据的清洗:将错误字段设置为null,或直接删除错误数据。
3.如权利要求1所述的方法,其特征在于,离线学习阶段和在线学习阶段的特征提取方式具体如下:
根据实体设备发出的报警,依据预设专家经验从模板日志中找到与该报警相关的安全日志,该安全日志包括单条日志中的字段信息,也来源于多条日志组合累计信息,将单条模板日志中与安全漏洞相关的信息作为安全漏洞的文本日志特征,将多条模板日志的组合特征作为安全漏洞的累计特征,特征提取的过程就是将每条日志转变为文本日志特征和累记特征的组合,提取模板日志中与预设专家经验相关的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210385799.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有烟气净化组件的供暖锅炉
- 下一篇:一种高弹力的塑料拖鞋生产注塑方法