[发明专利]一种日志数据的知识图谱构建方法有效
| 申请号: | 202011444358.5 | 申请日: | 2020-12-08 |
| 公开(公告)号: | CN112579707B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 李晓戈;邱连涛;胡飞雄;胡立坤;于智洋;张东 | 申请(专利权)人: | 西安邮电大学;腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/26;G06F16/215;G06F40/186;G06N20/00 |
| 代理公司: | 北京易捷胜知识产权代理有限公司 11613 | 代理人: | 齐胜杰;李会娟 |
| 地址: | 710121 陕西省*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 日志 数据 知识 图谱 构建 方法 | ||
1.一种日志数据的知识图谱构建方法,其特征在于,包括:
S1、获取指定时间窗口内的日志数据;
S2、对所述日志数据进行预处理,并依据模板树建立策略建立模板树;
S3、基于建立的模板树,获取日志模板;
S4、基于获取的日志数据和日志模板,进行实体抽取和关系抽取,获得用于输出的多个三元组数据,所述三元组数据为实体-关系-实体形式的数据;
具体地,S4-2-1:从待抽取关系的日志模板中,获得抽取的实体对e1,e2;
S4-2-2:使用TF-IDF算法计算出特征词的权重w,记为v={(word1,w1)(word2,w2)……},获得的实体对将日志数据中的非结构化部分切分为三部分:e1之前的文本特征向量,e1与e2之间的文本特征向量,e2之后的文本特征向量,记为Vi=(v1,v2,v3);
S4-2-3:使用余弦相似度计算两组向量之间的相似度,作为密度聚集类的输入,计算公式为:
其中,n指的是日志的word数,k是从1到n依次;
Vj指的是不同于Vi的另一条日志特征向量;
Wik指的是第i条日志中第k个单词的权重;
Vin指的是Vi切分后的每个特征向量(v1,v2,v3);
公式(1)为计算两个向量之间的距离,公式(2)对3组余弦相似度的距离求和,计算两个向量之间的相似度;
S4-2-4:将相似度作为聚类的输入,对所有预处理后的日志进行密度聚类,每个聚类簇中按特征词的TF-IDF值降序排列,选择关系词;
S5、对多个三元组数据按照时间序列进行融合,获得日志数据的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述S5包括:
将三元组数据存放在图数据库中,将与三元组数据对应的时间序列的信息存储在时序数据库中,用以在可视化显示时按照时间序列调用三元组数据,以获得日志数据的知识图谱;
所述图数据库为Neo4j型标准化数据库,所述时序数据库为OpenTSDB型标准化数据库;
或者,
将三元组数据中不同的实体类型及属性使用Cypher语句导入图数据库,使用OpenTSDB服务将实体关系及属性存储在时序数据库中;
所述图数据库为Neo4j型标准化数据库,所述时序数据库为OpenTSDB型标准化数据库。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
S6、接收平台输入的请求信息,依据请求信息中的可视化服务信息,向用户展示与可视化服务信息对应的实体关系;
或者,使用D3.js中的力导向图完成实体关系的可视化,或者,使用D3.js中的EventDrops进行实体时序的可视化。
4.根据权利要求1所述的方法,其特征在于,所述S2包括:
S2-1、对每一条日志数据,将日志数据中正文内容对应的非结构化的数据转化为结构化的正文数据;
S2-2、针对所有结构化的正文数据,采用分隔符进行分词处理;
S2-3、针对分词处理的所有正文数据,采用模板树建立策略,建立模板树;
其中,模板树建立策略包括:针对第一条正文数据,查看分词后每一词汇的顺序,按照模板树的根部到枝叶的顺序,进行划分父节点和子节点,针对第n条正文数据,查看分词后每一词汇与模板树中相应位置的词汇是否相同,若不同,则成为上一相同词汇的子节点。
5.根据权利要求4所述的方法,其特征在于,所述S3包括:
S3-1、针对所述模板树,判断每一个父节点和子节点的数据格式,采用指定数据格式所属的标识符替换节点的数据,并获取新的模板树;
S3-2、针对新的模板树,采用剪枝策略对子节点进行剪枝处理,获取精简模板树;
S3-3、将精简模板树中每一根节点到叶子节点作为一个日志模板,并遍历所述精简模板树,获取所有的日志模板,且每一日志模板具有唯一的标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学;腾讯科技(深圳)有限公司,未经西安邮电大学;腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011444358.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





