[发明专利]融合结构、属性和关系信息的实体对齐方法和系统在审
| 申请号: | 202011484523.X | 申请日: | 2020-12-16 |
| 公开(公告)号: | CN112445876A | 公开(公告)日: | 2021-03-05 |
| 发明(设计)人: | 杨林瑶;王晓;陈薏竹;王飞跃;张俊 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28 |
| 代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 结构 属性 关系 信息 实体 对齐 方法 系统 | ||
本发明属于信息处理领域,具体涉及一种融合结构、属性和关系信息的实体对齐方法和系统,旨在解决现有实体对齐方法并不能很好地整合结构、属性和关系信息从而限制了实体对齐的效果的问题。本发明方法包括迭代的以下步骤:利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量;进行关系对齐,获得对应的关系向量;基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵;基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′;若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,S=S0∪S′继续迭代。本发明可以有效提升实体对齐的性能。
技术领域
本发明属于信息处理领域,具体涉及一种融合结构、属性和关系信息的实体对齐方法和系统。
背景技术
知识图谱是人工智能在大数据环境中的成功应用,与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。随着智能信息服务应用的不断发展,知识图谱已被广泛应用于信息检索、个性化推荐、智能问答等多个实际场景,具有极强的表达能力和建模灵活性。
由于任何机构和组织都可以根据自己的需求和设计理念创建知识库,因此知识库中的数据也充满多样性和异构性,并且存在很多相互重复或补充的部分。因此,将不同来源或语言的知识图谱整合到一个统一的知识图谱中变得至关重要,可以更好地推动知识应用的发展。如DB-pedia、YAGO等多语言知识图谱包含了丰富的跨语言信息,包括等效实体的跨语言链接。然而,并非所有等效实体都具有跨语言链接,因此,跨知识图谱实体对齐任务具有重要意义。但是,目前的实体对齐方法并不能很好地整合结构、属性和关系信息,这在一定程度上限制了实体对齐的效果。
发明内容
为了解决现有技术中的上述问题,即为了解决现有实体对齐方法并不能很好地整合结构、属性和关系信息,从而限制了实体对齐的效果的问题,本发明提出了一种融合结构、属性和关系信息的实体对齐方法,包括以下步骤:
S100,获取初始对齐种子集合S0;所述对齐种子集合为待实体对齐的两个知识图谱G1、G2的对齐种子所构成的集合;
S200,利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量;其中,S=S0∪S′,S′为上一轮迭代得到的高置信度预测对齐实体集合,其初始状态为空;
S300,基于实体的结构向量,进行关系对齐,获得对应的关系向量;
S400,基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵;
S500,利用实体相似性矩阵,基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′;
S600,若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,执行步骤S200。
在一些优选实施方式中,所述结构向量为两个知识图谱G1、G2中的实体在统一向量空间中的结构嵌入表示。
在一些优选实施方式中,所述结构向量获取所采用的网络为图注意力网络、RSNs结构嵌入模型或AliNet结构嵌入模型。
在一些优选实施方式中,所述属性向量,其获取方法为:识别不同实体中的属性名实体,将等价的属性名合并映射为同一种命名。
在一些优选实施方式中,所述关系向量,其获取方法为:
基于实体的结构向量近似知识图谱G1、G2中关系的表示向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011484523.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合益生菌及其制备方法
- 下一篇:一种带刹车机构的轮子





