[发明专利]非结构化文本日志流的摘要提取方法和装置有效
申请号: | 202011476332.9 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112463957B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 孟伟彬;刘莹;裴丹;菲德利阁·扎特·特里尼达;何林 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/186;G06F40/295 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文本 日志 摘要 提取 方法 装置 | ||
1.一种非结构化文本日志流的摘要提取方法,其特征在于,包括以下步骤:
获取待处理日志,并从日志模板库中获取与所述待处理日志匹配的目标日志模板;
对所述待处理日志和所述目标日志模板进行日志三元组抽取,获取日志三元组;
对所述日志三元组进行排序,根据排序结果获取生成所述待处理日志的摘要;
其中,所述方法,还包括:
获取多个历史日志,并从所述多个历史日志中提取多个日志模板;
将所述多个日志模板进行存储,构建所述日志模板库;
所述方法,还包括:
应用词嵌入模型来获取所述多个历史日志中的词嵌入信息;
其中,所述对所述日志三元组进行排序,根据排序结果获取生成所述待处理日志的摘要,包括:
将所述日志三元组中的任何单词转换为单词嵌入向量,对每个所述单词嵌入向量进行加权平均处理生成三元组向量;
根据所述三元组向量之间的相似度确定两个所述日志三元组之间的连接关系;
根据所述日志三元组、所述日志三元组之间的连接关系构建图数据结构;
使用预设算法对所述图数据结构进行排序,选择排序前K个日志三元组生成所述摘要;其中,K为正整数。
2.如权利要求1所述的方法,其特征在于,所述对所述待处理日志和所述目标日志模板进行日志三元组抽取,获取日志三元组,包括:
根据所述待处理日志与所述目标日志模板中匹配的结构化文本按照预设规则进行提取,获取所述日志三元组;
通过开放域信息抽取组件对所述目标日志模板中非结构文本进行提取,获取所述日志三元组。
3.一种非结构化文本日志流的摘要提取装置,其特征在于,包括:
第一获取模块,用于获取待处理日志,并从日志模板库中获取与所述待处理日志匹配的目标日志模板;
抽取模块,用于对所述待处理日志和所述目标日志模板进行日志三元组抽取,获取日志三元组;
生成模块,用于对所述日志三元组进行排序,根据排序结果获取生成所述待处理日志的摘要;
其中,所述装置,还包括:
第二获取模块,用于获取多个历史日志,并从所述多个历史日志中提取多个日志模板;
构建模块,用于将所述多个日志模板进行存储,构建所述日志模板库;
所述装置,还包括:
第三获取模块,用于应用词嵌入模型来获取所述多个历史日志中的词嵌入信息;
所述生成模块,具体用于:
将所述日志三元组中的任何单词转换为单词嵌入向量,对每个所述单词嵌入向量进行加权平均处理生成三元组向量;
根据所述三元组向量之间的相似度确定两个所述日志三元组之间的连接关系;
根据所述日志三元组、所述日志三元组之间的连接关系构建图数据结构;
使用预设算法对所述图数据结构进行排序,选择排序前K个日志三元组生成所述摘要;其中,K为正整数。
4.如权利要求3所述的装置,其特征在于,所述抽取模块,具体用于:
根据所述待处理日志与所述目标日志模板中匹配的结构化文本按照预设规则进行提取,获取所述日志三元组;
通过开放域信息抽取组件对所述目标日志模板中非结构文本进行提取,获取所述日志三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011476332.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超低温液氮试验箱
- 下一篇:系统日志模板的在线提取方法和装置