[发明专利]系统日志模板的在线提取方法和装置在审
申请号: | 202011476333.3 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112463933A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 孟伟彬;刘莹;裴丹;菲德利阁·扎特·特里尼达;何林 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/186;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 系统 日志 模板 在线 提取 方法 装置 | ||
本申请提出一种系统日志模板的在线提取方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理日志,将待处理日志在预设的日志模板库中进行匹配;在没有匹配到日志模板的情况下,使用已训练的单词分类器对待处理日志中的每一个单词做分类,获取模板单词和变量单词;将变量单词替换成目标标识符,将目标标识符和模板单词组合成文本生成新日志模板,并存储在日志模板库中。由此,能够自动化的提取日志模板,有利于后续的异常检测,故障预测等日志分析任务的开展。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种系统日志模板的在线提取方法和装置。
背景技术
系统日志在服务管理中起着重要作用。日志模板提取是进行自动化日志分析的第一步。为了实现自动模板提取的目标,已经提出了许多数据驱动的方法。
相关技术中,模板提取方法有很多类别。第一类是基于聚类的方法,该日志模板形成一组日志消息的自然模式;接下来是最长的公共子序列,例如,使用最长的公共子序列算法来解析流中的日志,与一般文本数据相反,日志消息具有一些独特的特征。因此,基于启发式的日志解析方法,最后一个类别是频繁项挖掘,日志模板可以看作是一组经常在日志中频繁出现的常量令牌。
然而,现有的日志模板提取方法无法应用于在线提取和更新模板。
申请内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种系统日志模板的在线提取方法,解决海量系统日志模板的在线提取的问题,能够在线提取日志模板,以用来支持软硬件系统的增量学习,以增量的更新模板集,因此新类型的日志可以被匹配到更新的模板集上。
本申请的第二个目的在于提出一种系统日志模板的在线提取装置。
为达上述目的,本申请第一方面实施例提出了一种系统日志模板的在线提取方法,包括:
获取待处理日志,将所述待处理日志在预设的日志模板库中进行匹配;
在没有匹配到日志模板的情况下,使用已训练的单词分类器对所述待处理日志中的每一个单词做分类,获取模板单词和变量单词;
将所述变量单词替换成目标标识符,将所述目标标识符和所述模板单词组合成文本生成新日志模板,并存储在所述日志模板库中。
本申请的系统日志模板的在线提取方法,获取待处理日志,将待处理日志在预设的日志模板库中进行匹配;在没有匹配到日志模板的情况下,使用已训练的单词分类器对待处理日志中的每一个单词做分类,获取模板单词和变量单词;将变量单词替换成目标标识符,将目标标识符和模板单词组合成文本生成新日志模板,并存储在日志模板库中。由此,能够自动化的提取日志模板,有利于后续的异常检测,故障预测等日志分析任务的开展。
在本申请一个实施例中,所述的系统日志模板的在线提取方法,还包括:
获取多个历史日志,并从所述多个历史日志中提取多个日志模板;
将所述多个日志模板进行存储,构建所述日志模板库。
在本申请一个实施例中,所述的系统日志模板的在线提取方法,还包括:
对所述多个日志模板来每个单词进行分类,获取模板词汇样本和变量词汇样本;
将所述模板词汇样本和所述变量词汇样本作为标签输入神经网络训练,获取所述单词分类器。
在本申请一个实施例中,所述的系统日志模板的在线提取方法,还包括:
对所述新日志模板中的错误分类进行分类正确结果标记;
将分类正确结果反馈到所述神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011476333.3/2.html,转载请声明来源钻瓜专利网。