[发明专利]一种基于RNN神经网络和倒排索引的日志自动化解析方法在审

申请号：	202210588074.6	申请日：	2022-05-26
公开（公告）号：	CN114969241A	公开（公告）日：	2022-08-30
发明（设计）人：	应时;葛心泉;黄浩;甘庭	申请（专利权）人：	武汉大学
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/35;G06F40/169;G06F40/186;G06F40/205;G06F40/242;G06N3/04;G06N3/08
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	罗飞
地址：	430072 湖北省武***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 rnn 神经网络索引日志自动化解析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于RNN神经网络和倒排索引的日志自动化解析方法，其特征在于，包括：

S1：获取历史日志数据，并对历史日志数据进行预处理和标准化处理，得到标准化数据，基于标准化数据得到训练数据集；

S2：利用RNN神经网络模型训练数据集进行学习，根据训练数据集得到多个模型，计算每种模型的分类准确率、召回率和F指标，并基于分类准确率、召回率和F指标得到最佳模型，作为分类器；

S3：将待解析的日志数据进行预处理后输入所述分类器中进行分类，得到分类结果，分类结果包括日志模板类和变量类；再利用倒排索引的数据结构以及分类器得到的分类结果，对待解析的日志数据进行模板提取以及模板匹配，得到标准化的日志模板，其中，倒排索引的数据结构为一个Python字典；已解析的日志数据被分配唯一的模板ID后，将该条日志中的模板词作为键，模板ID作为值，以键值对的形式加入Python字典中，模板词为被分类器分类为日志模板类的词语。

2.如权利要求1所述的方法，其特征在于，步骤S1包括：

S1.1：从历史日志数据中提取组成日志消息的词语；

S1.2：对步骤S1.1中提取出的组成日志消息的词语进行分类，分为日志模板类以及变量类，对两类数据进行人工标注，其中日志模板类是在日志生成过程中人工定义的部分，变量类是在日志生成过程中程序生成的部分；

S1.3：对标注后的词语进行标准化处理，得到标准化数据，作为训练数据集。

3.如权利要求1所述的方法，其特征在于，根据标准化数据得到测试数据集，步骤S2包括：

S2.1：将训练数据集中的数据用One-Hot编码方式进行向量化处理，得到每一个词的向量表示；

S2.2：将训练数据集中词的向量表示输入预先构建的RNN神经网络进行训练；

S2.3：使用测试数据集对训练得到的RNN神经网络模型进行测试，根据分类准确率、找回率和F指标三个标准得到最佳模型，作为分类器。

4.如权利要求1所述的方法，其特征在于，步骤S3将待解析的日志数据进行预处理后输入所述分类器中进行分类，包括：

S3.1：对待解析的日志数据进行内部部分提取，提取出组成日志消息的词语；

S3.2：将提取出的词语利用One-Hot编码方式进行向量化处理，输入到步骤S2中得到的分类器，得到一个分类结果：日志模板类或者变量类。

5.如权利要求1所述的方法，其特征在于，步骤S3利用倒排索引的数据结构以及分类器得到的分类结果，对待解析的日志数据进行模板提取以及模板匹配，得到标准化的日志模板，包括：