[发明专利]非结构化文本日志流的摘要提取方法和装置有效
申请号: | 202011476332.9 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112463957B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 孟伟彬;刘莹;裴丹;菲德利阁·扎特·特里尼达;何林 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/186;G06F40/295 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文本 日志 摘要 提取 方法 装置 | ||
本申请提出一种非结构化文本日志流的摘要提取方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理日志,并从日志模板库中获取与待处理日志匹配的目标日志模板;对待处理日志和目标日志模板进行日志三元组抽取,获取日志三元组;对日志三元组进行排序,根据排序结果获取生成待处理日志的摘要。由此,解决海量日志的重要信息抽取的问题,不需要对文本数据做标注,用于在线服务的自动、无监督的端到端日志摘要提取。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种非结构化文本日志流的摘要提取方法和装置。
背景技术
大型服务通常会生成文本日志,该日志描述了它们所观察到的大量事件,并且通常是记录服务运行时信息的唯一可用数据。目前有许多用于服务管理的自动日志分析方法,它们可以分为日志压缩,日志解析,异常检测,故障预测,故障诊断等。尽管这些方法可以帮助运维工程师有效地了解服务的运行状态,但是最终还是需要运维工程师手动分析。更具体地说,在检测/预测/诊断故障之后,工程师仍必须读取相应的原始日志流,以理解日志流的语义信息。
相关技术中,(1)手动日志摘要或基于规则(例如正则表达式规则)的日志摘要,传统的日志摘要方式主要依靠手动检查或规则更新,已成为一项劳动密集型且容易出错的任务。大型服务通常由数百个开发人员和运营商实施和维护。日志的开发人员或运维人员通常不完全了解原始日志用途,实际操作起来十分低效。同时,随着敏捷软件开发的日益普及,开发工程师越来越频繁地部署软件更新,从而导致不断生成大量的新型日志。对于运维工程师而言,及时理解这些新型日志非常困难。(2)基于文本压缩算法的日志摘要,文本压缩算法的目的是为了是减少文本的存储空间,而日志摘要的目的是获得具有价值的、可读的信息,帮助运维工程师快速理解日志。它们的目的是不同的。(3)基于通用自然语言处理算法的日志摘要,大型互联网厂商的服务日志的数量正在以每小时约50GB(约120至2亿行)的速度激增。而自然语言处理算法直接处理实时日志的话或无法满足线上数据量的需求,或需要大量的计算资源,导致无法实际部署。同时,大多数的自然语言处理领域的文本摘要方法都是有监督方法,它们需要有标注数据才可以训练模型。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种非结构化文本日志流的摘要提取方法,解决海量日志的重要信息抽取的问题。不需要对文本数据做标注,用于在线服务的自动、无监督的端到端日志摘要提取,以及获得给定日志序列的重要日志的摘要三元组,其中,同时考虑语义信息和领域知识。
本申请的第二个目的在于提出一种非结构化文本日志流的摘要提取装置。
为达上述目的,本申请第一方面实施例提出了一种非结构化文本日志流的摘要提取方法,包括:
获取待处理日志,并从日志模板库中获取与所述待处理日志匹配的目标日志模板;
对所述待处理日志和所述目标日志模板进行日志三元组抽取,获取日志三元组;
对所述日志三元组进行排序,根据排序结果获取生成所述待处理日志的摘要。
本申请实施例的非结构化文本日志流的摘要提取方法,通过获取待处理日志,并从日志模板库中获取与待处理日志匹配的目标日志模板;对待处理日志和目标日志模板进行日志三元组抽取,获取日志三元组;对日志三元组进行排序,根据排序结果获取生成待处理日志的摘要。由此,解决海量日志的重要信息抽取的问题,不需要对文本数据做标注,用于在线服务的自动、无监督的端到端日志摘要提取。
在本申请的一个实施例中,所述的方法,还包括:
获取多个历史日志,并从所述多个历史日志中提取多个日志模板;
将所述多个日志模板进行存储,构建所述日志模板库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011476332.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超低温液氮试验箱
- 下一篇:系统日志模板的在线提取方法和装置