[发明专利]一种知识图谱的嵌入表示方法及相关设备在审
申请号: | 201910583845.0 | 申请日: | 2019-06-29 |
公开(公告)号: | CN112148883A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 吴丹萍;李秀星;国硕;刘冬;贾岩涛;王建勇 | 申请(专利权)人: | 华为技术有限公司;清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 嵌入 表示 方法 相关 设备 | ||
本申请实施例公开了一种知识图谱的嵌入表示方法及相关设备,所述方法包括:可以从预设的知识库中获取目标知识图谱的M个实体中每个实体的N个相关实体,以及每个相关实体对应的K个概念;接着确定每个实体与该实体的每个相关实体之间的语义相关度、以及根据对应的K个概念确定每个相关实体的第一实体嵌入表示;然后根据第一实体嵌入表示和语义相关度,对实体/关系的嵌入表示进行建模,并结合注意力机制和预设的模型训练方法对模型进行训练,得到实体/关系的嵌入表示。采用本申请实施例,可以捕获实体的背景内容、实现实体的语义扩展,提高嵌入表示模型在实体之间复杂关系下的表示能力、以及知识图谱补全的准确性和全面性。
技术领域
本申请涉及信息处理领域,尤其涉及一种知识图谱的嵌入表示方法及相关设备。
背景技术
知识图谱是一种高度结构化的信息表现形式,可以用于描述现实世界中各种实体之间的关系。其中,实体为客观存在并可相互区别的事物,例如,人名、地名、电影名称等等。典型的知识图谱由大量的[头实体,实体关系,尾实体]三元组构成,每个三元组表示一个事实。如图1所示,该知识图谱包括的事实三元组有[周杰伦,血型,O型]、[周杰伦,民族,汉族]、 [不能说的秘密,制片人,江志强]、…。目前已有多个大规模、开放领域的知识图谱,如Freebase、WordNet,但是它们距离完备还有很远的距离,然而知识图谱的完备度决定了它的应用价值。为了完善知识图谱,提高其完备度,可以先对已有知识图谱进行的嵌入表示,再基于实体/关系的嵌入表示对该知识图谱进行补全。但是,现有的知识图谱的嵌入表示和补全方法一方面受到图谱的结构稀疏性的限制,另一方面所使用的外部信息特征容易受到文本语料库的规模的影响,从而导致所实现的知识图谱的补全效果不理想。
发明内容
本申请实施例提供了一种知识图谱的嵌入表示方法及相关设备,可以实现实体的语义扩展,从而提高知识图谱中实体之间复杂关系下的表示能力、以及知识图谱补全的准确性和全面性。
第一方面,本申请实施例提供了一种知识图谱补全方法,包括:首先获取目标知识图谱中的M个实体,其中,M个实体包括实体1、实体2、…、实体M,M为大于1的整数;接着从预设的知识库中获取M个实体中实体m的N个相关实体,以及N个相关实体中相关实体n对应的K个概念,N个相关实体包括相关实体1、相关实体2、…、相关实体N,其中,所N和K为不小于1的整数、m=1,2,3,…,M以及n=1,2,3…,N,且实体m与该实体放入 N个相关实体之间、以及相关实体n和与之对应的K个概念之间语义相关;其次确定M个实体中每个实体与该实体的每个相关实体之间的语义相关度、以及根据对应的K个概念确定每个相关实体的第一实体嵌入表示;最后根据第一实体嵌入表示和语义相关度,对M个实体和 M个实体之间的实体关系的嵌入表示进行建模,得到嵌入表示模型,并对嵌入表示模型进行训练,得到每个实体的第二实体嵌入表示和实体关系的关系嵌入表示。通过实体-相关实体- 相关实体的相关实体这样的两层信息融合机制来对知识图谱中的实体/关系嵌入表示进行建模,可以有效实现实体的语义扩展,从而提高知识图谱的补全效果。
在一种可能的设计中,可以对相关实体n的K个概念中每个概念进行向量化处理,得到每个概念的词向量;对相关实体n的K个概念的词向量进行平均求和,得到相关实体n的第一实体嵌入表示,n=1,2,3…,N。其中,通过概念的词向量来表示相关实体,相当于进行从概念到相关实体的第一重信息融合,为从相关实体到实体的第二层信息融合做准备。
在另一种可能的设计中,可以根据语义相关度和N个相关实体的第一实体嵌入表示,确定每个实体对应的一元文本嵌入表示;根据N个相关实体,确定M个实体中每两个实体的共同相关实体;根据语义相关度和共同相关实体的第一实体嵌入表示,确定每两个实体对应的二元文本嵌入表示;根据一元文本嵌入表示和二元文本嵌入表示,确定嵌入表示模型。其中一元文本嵌入表示相关相当于实体的对齐文本的内容的向量化表示,用于捕获实体的背景信息。二元文本嵌入表示则相当于两个实体对应的对齐文本的内容交集的向量化表示,它随着实体的改变而改变、用于对关系进行建模,从而可以实现一对多、多对一和多对多的复杂关系的嵌入表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;清华大学,未经华为技术有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910583845.0/2.html,转载请声明来源钻瓜专利网。