[发明专利]日志处理方法和装置在审
申请号: | 201910914657.1 | 申请日: | 2019-09-26 |
公开(公告)号: | CN112559474A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 汪少敏;阮宜龙;王铮;杨迪;任华 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/33;G06F40/279 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 赵倩男 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 处理 方法 装置 | ||
1.一种日志处理方法,包括:
利用停用词库对样本日志文件进行分词处理,得到所述样本日志文件中的多个词语;
对所述多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词;
将所述样本日志文件中连续出现的预定个数的高频词,作为高频词组;
计算每个所述高频词组与标点组合的加权概率;
根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版;
根据所述日志模版,提取日志数据中的关键信息。
2.根据权利要求1所述的日志处理方法,还包括:
验证每个所述高频词组中词语间的关联性;
计算具有关联性的词组构成的高频词组与标点组合的加权概率。
3.根据权利要求2所述的日志处理方法,其中,计算具有关联性的词组构成的高频词组与标点组合的加权概率包括:
统计所述具有关联性的词组构成的高频词组的前后出现标点的概率;
确定对应标点的权值;
将所述出现标点的概率与对应标点的权值之积,作为所述具有关联性的词组构成的高频词组与标点组合的加权概率。
4.根据权利要求2所述的日志处理方法,其中,验证每个所述高频词组中词语间的关联性包括:
将每个所述高频词组中的词语进行卡方验证,确定每个所述高频词组中词语间的关联性。
5.根据权利要求1所述的日志处理方法,其中,将连续出现的预定个数的高频词,作为高频词组包括:
将预定个数的高频词作为组合,统计在所述样本日志文件中,所述组合出现的频率;
将出现频率大于频率阈值的组合,作为高频词组。
6.根据权利要求1-5任一所述的日志处理方法,其中,所述停用词库中不包含标点符合和空格。
7.一种日志处理装置,包括:
分词处理单元,被配置为利用停用词库对样本日志文件进行分词处理,得到所述样本日志文件中的多个词语;
高频词确定单元,被配置为对所述多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词;
高频词组确定单元,被配置为将所述样本日志文件中连续出现的预定个数的高频词,作为高频词组;
加权概率确定单元,被配置为计算每个所述高频词组与标点组合的加权概率;
日志模版构建单元,被配置为根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版;
关键信息提取单元,被配置为根据所述日志模版,提取日志数据中的关键信息。
8.根据权利要求7所述的日志处理装置,还包括:
关联性验证单元,被配置为验证每个所述高频词组中词语间的关联性;
其中,所述加权概率确定单元被配置为计算具有关联性的词组构成的高频词组与标点组合的加权概率。
9.一种日志处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的日志处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至6任一项所述的日志处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910914657.1/1.html,转载请声明来源钻瓜专利网。