[发明专利]一种知识图谱数据处理方法及装置在审
申请号: | 201810688821.7 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108875053A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 朱月梅;郑凯;段立新;江建军 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 邓超 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图谱 数据处理 构建 特征向量 相邻实体 向量表示 向量集合 向量特征 应用效果 向量 嵌入 融合 申请 优化 | ||
本申请提供了一种知识图谱数据处理方法及装置,方案通过构建实体对应的局部子图,组合局部子图对应的向量集合,计算得到实体的特征向量,使得计算出的实体的向量能够融合或体现相邻实体的向量特征,调整或优化实体的向量表示。方案提高了实体的嵌入效果,使得后续知识图谱的构建和/或应用效果足够理想。
技术领域
本申请涉及大数据处理技术领域,具体而言,涉及一种知识图谱数据处理方法及装置。
背景技术
知识图谱(Knowledge Graph)作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱旨在描述的是真实世界中存在的实体及其关系,一般可以采用三元组表示,该三元组包括头实体、尾实体和关系,实体之间是通过关系相互联结,形成了网状的知识结构。
实体嵌入是构建知识图谱的关键技术,其主要目的是应用低维度向量对实体及其关系进行建模。目前常用的实体嵌入方法是通过嵌入矩阵的查找操作,从原始知识库中查找属于特定实体的一维向量,如对于张三这一实体而言,查找到的一维向量对应于张三的相关信息(如出生地、身份证号等)。
这种方式的嵌入忽略了实体之间的关联,对实体间关系的可靠性和强度的考虑不足,导致嵌入效果不佳,使得后续知识图谱的构建和/或应用效果不够理想。
发明内容
有鉴于此,本申请实施例的目的在于提供一种知识图谱数据处理方法及装置,能够充分考虑实体间的关系,提高实体嵌入效果。
本申请实施例提供了一种知识图谱数据处理方法,对知识图谱全部或部分实体中的每个实体,执行如下操作:
使用所述实体及所述实体的至少一个相邻实体,构建所述实体对应的局部子图;
组合表示所述局部子图中每一实体的各原向量,得到所述局部子图对应的原向量集合;
基于所述原向量集合,计算得到所述实体对应的特征向量,所述特征向量能够反映所述实体与其他至少一个实体之间的关系。
可选的,所述至少一个相邻实体是与所述实体直接相连的至少一个实体。
可选的,使用所述实体对应的特征向量替换或更新表示所述实体的原向量。
可选的,所述方法还包括:对于已计算出特征向量的至少一个第一实体和至少一个第二实体,执行如下操作:使用所述至少一个第一实体对应的至少一个第一特征向量和所述至少一个第二实体对应的至少一个第二特征向量,计算所述至少一个第一实体与所述至少一个第二实体之间的关联强度。
可选的,所述方法还包括:使用所述计算出的关联强度构建或更新所述至少一个第一实体与所述至少一个第二实体之间的关系。
可选的,所述关联强度的计算由解码器执行,所述解码器还使用评分函数对所述关联强度的计算结果进行评估。
可选的,所述基于所述原向量集合,计算得到所述实体对应的特征向量,包括:将所述原向量集合输入到编码器中,利用编码器的内设参数及权重信息计算生成所述特征向量,所述编码器采用多层图卷积神经网络,所述权重信息反映在所述局部子图中所述实体与所述实体的至少一个相邻实体之间的已知关联强度。
可选的,将计算得出的所述关联强度,与所述至少一个第一实体与所述至少一个第二实体的已知关联强度进行比较,根据比较结果对所述编码器进行训练,优化所述编码器的内设参数。
本申请实施例还提供了一种知识图谱数据处理装置,包括:
子图构建模块,用于使用实体及所述实体的至少一个相邻实体,构建所述实体对应的局部子图;
集合生成模块,用于组合表示所述局部子图中每一实体的各原向量,得到所述局部子图对应的原向量集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810688821.7/2.html,转载请声明来源钻瓜专利网。