[发明专利]基于实体序列编码的知识图谱融合方法有效

专利信息
申请号: 201911393679.4 申请日: 2019-12-30
公开(公告)号: CN111191471B 公开(公告)日: 2022-06-28
发明(设计)人: 李建欣;黄洪仁;宁元星;毛乾任;司靖辉 申请(专利权)人: 北京航空航天大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/295;G06F16/36
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 实体 序列 编码 知识 图谱 融合 方法
【说明书】:

发明公开了基于实体序列编码的知识图谱融合方法,所述方法包括:步骤一:知识图谱实体表示学习;步骤二:选择路径编码和对齐模型;步骤三:跨语言实体对齐模型,其中,在源语言知识图谱空间中,针对其中的一个实体,构建与其他种子实体的2跳序列,在目标语言知识图谱空间中构建可能与之对应的序列,找出概率最高的对齐序列,然后从对齐序列中找到同位置的节点,作为该节点的对齐节点;步骤四:添加新的候选种子节点;本发明针对现有技术中深度学习模型训练语料不足的问题,提出了基于实体路径表示学习的方法。

技术领域

本发明涉及知识图谱应用技术领域,尤其涉及一种基于实体序列编码的知识图谱融合方法。

背景技术

目前国内外的知名互联网企业,例如谷歌、百度、腾讯、微软都搭建了属于自己的知识库,这些知识库提供了大量的知识服务信息,例如谷歌的知识库系统Knowledge Vault已经入库16亿条信息,目前还在收集入录更多的信息。百度的知识图谱的应用服务在5年间增长了160倍。这些企业使用知识图谱可以提供的更多语义信息,提供更加智能化的搜索服务,为互联网用户提供了便携的服务。

这些知识图谱包含了大量常识信息,融合这些跨语言的知识库可以提供更多的知识,为互联网用户提供更智能化的信息检索帮助服务。但是知识库体系庞大,内容众多,语言不一致,如何高效融合这些知识库成为一个重点挑战问题。融合知识图谱的首要工作是找出两个只是空间可对齐的知识实体,例如将英文知识库中NewYork和中文知识库中的纽约对齐为一个实体。传统的方法可以使用机器词翻译的方式,将多语言实体的词进行翻译,但是存在着一词多义的情况,例如朝阳这个词可能指的是辽宁的朝阳,也可能是北京的朝阳。使用深度学习的方法学习节点向量,标注已知的对齐实体对,训练对齐模型进行对齐,是目前研究的热点工作,这个方法根据实体的语义信息和实体之间的关系语义进行对齐操作,提高了模型的准确率,但是这类模型存在问题,标注训练语料需要耗费大量人力。

而且,由于深度学习模型在实体对齐任务中的良好表现,但是缺少训练语料的问题,如果训练语料不充分,无法学习出准确高效的对齐模型。

发明内容

为解决上述技术问题,本发明提供了一种基于实体序列编码的知识图谱融合方法学习方法。

基于实体序列编码的知识图谱融合方法,包括:

步骤一:知识图谱实体表示学习;

步骤二:选择路径编码和对齐模型;

步骤三:跨语言实体对齐模型,其中,在源语言知识图谱空间中,针对其中的一个实体,构建与其他种子实体的2跳序列,在目标语言知识图谱空间中构建可能与之对应的序列,找出概率最高的对齐序列,然后从对齐序列中找到同位置的节点,作为该节点的对齐节点;

步骤四:添加新的候选种子节点。

进一步,所述步骤一中,使用RotatE模型分别学习源语言知识图谱空间和目标语言知识图谱空间中的实体表示向量和关系表示向量,所述RotatE模型通过三种关系:对称、反转、构成,来训练所述实体表示向量和所述关系表示向量,得到三元组集合和种子实体对。

进一步,所述步骤二中,包括构建训练实体序列、对实体序列进行编码;对于任意一对跨语言对齐种子实体,在所述源语言知识图谱空间中选择2跳路径,所述2跳路径上的点都是对齐的种子实体,构建长度为5的节点序列,在所述目标语言知识图谱空间中构建同样长度为5的节点序列,两个空间中2跳实体序列上的点是一一对应的;训练时,对所述节点序列上的节点和关系的表示向量进行拼接和卷积操作学习出2个实体序列的表示,并设计公式计算两个实体序列是否是同一实体序列的概率。

进一步,所述计算两个实体序列是否是同一实体序列的概率的公式为:

p(vt|vs)=exp(-η||vt-θvs||2)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911393679.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top