[发明专利]一种基于RNN神经网络和倒排索引的日志自动化解析方法在审

专利信息
申请号: 202210588074.6 申请日: 2022-05-26
公开(公告)号: CN114969241A 公开(公告)日: 2022-08-30
发明(设计)人: 应时;葛心泉;黄浩;甘庭 申请(专利权)人: 武汉大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/35;G06F40/169;G06F40/186;G06F40/205;G06F40/242;G06N3/04;G06N3/08
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 罗飞
地址: 430072 湖北省武*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 rnn 神经网络 索引 日志 自动化 解析 方法
【说明书】:

发明公开了一种基于RNN神经网络和倒排索引的日志自动化解析方法,本发明的日志自动化解析技术分为三个阶段:第一个阶段针对解析完成的日志数据,将日志中的词分为模板类与变量类,并进行标准化处理得到标准化数据;第二个阶段基于RNN神经网络模型对经过处理后的标准化数据进行学习,学习得到能够对日志中词进行二分类的神经网络分类器,根据准确率、召回率和F指标选择最佳模型;第三个阶段根据得到的RNN分类模型,输入待解析的日志消息,对消息内的词进行分类,保留日志消息中模板类的词作为日志模板;利用倒排索引的方式对日志消息进行模板匹配。本发明中的模型具有很强的泛化能力,能够在不同的日志数据集上取得较高的解析精度。

技术领域

本发明涉及机器学习技术领域,尤其涉及一种基于RNN神经网络和倒排索引的日志自动化解析方法。

背景技术

在许多软件系统的开发和维护过程中,日志都是必不可少的。他们记录详细运行时信息,使开发人员和维护工程师可以监视他们的系统并分析异常行为和错误。日志中包含的丰富信息以及系统中无处不在的日志使得许多系统管理和诊断任务变得可能,例如分析使用情况,保证应用安全,分辨性能异常,诊断系统的错误与崩溃。

但是随着现代软件系统的规模和复杂性的提升,随之产生的日志数量也爆炸性地增长。在许多场合,传统的手动日志检查方式变得不切合实际。最近的许多研究以及工业界所使用的工具,借助强大的基于文本和机器学习的工具分析解决上述问题的方案。因为日志的非结构性特点,第一个关键的步骤就是解析日志为结构化的数据,为了后续工作的分析做准备。

国内外自动化日志解析的技术主要包括基于频繁模式挖掘、聚类、启发式方法这三类方法。

基于频繁模式挖掘方法方面,日志事件的模板可以看作一组不变的在日志中经常出现的记号。频繁模式挖掘是一种很直接的方法。SLCT、LFA、LogCluster就是利用的这种方法。所有方法都是离线的,而且遵循相似的解析步骤:多次遍历数据、每次遍历建立频繁模式项集、将日志消息进行聚类、从每个簇中提取事件模板。这种方法无法做到在线对日志进行解析。

基于聚类的方法方面,事件模板形成了日志消息自然的模式组,从这个角度来看日志解析可以看作日志消息的聚类问题。LKE、LogSig、LogMine是运用聚类算法的离线算法,SHISO、LenMa是在线算法。LKE算法采用了基于成对编辑的分层日志距离聚类算法。LogSig是一个基于消息签名的算法,用于将日志消息聚类到预定义数量的簇中。LogMine能够基于层次聚类的算法产生事件模板,自下而上的将日志消息分组。SHISO和LenMa都是在线方法,用相似的流处理的方法解析日志。对于每条到来的日志消息,解析器首先计算与现有的日志模板之间的相似度。如果成功地匹配,则将这条日志归类到已有模板中;否则,建立新的消息模板。使用聚类方法,对不同的日志数据需要设置不同的参数,使得方法的泛用性不强。

启发式方法方面,与通常的文字数据不同,日志消息有一些独特的特征。AEL、IPLoM、Drain提出了基于启发式方法的日志解析器。特别地,AEL通过比较常量记号与变量记号的出现频率将日志消息进行分类。IPLoM使用了一种迭代的分类方法,基于日志的消息长度、记号出现的位置和对应关系。Drain运用了修改的深度树结构去表示日志,并且从日志中高效地提取模板。启发式方法需要引入较多的前置知识,并且对日志数据需要进行假设,在不同的日志数据之间迁移性不高。

在与本发明密切相关的基于机器学习的日志自动化解析方法上,在自动化日志解析上,Tong Xiao等人考虑了日志数据中词的词频出现概率,用机器学习中经典的Word2Vec预处理方法对词进行向量化,再利用聚类方法将相同类型的日志模板分为一类。SashoNedelkoski等人提出了一种利用自然语言处理中流行的掩码模型(masked languagemodeling)方法,用自监督的深度学习技术进行自动化日志解析。Weibin Meng等人在已有的日志解析器基础上,利用解析好的日志数据作为训练集,用SVM方法训练了一个词分类器,用于后续更新日志的解析。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210588074.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top