[发明专利]一种实体对齐方法和装置在审
| 申请号: | 201710230135.0 | 申请日: | 2017-04-10 |
| 公开(公告)号: | CN108694201A | 公开(公告)日: | 2018-10-23 |
| 发明(设计)人: | 贾岩涛;李曼玲;刘诗凯;邓拯宇 | 申请(专利权)人: | 华为软件技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 对齐 向量 候选实体 训练模型 方法和装置 属性相似度 读取 目标实体 向量空间 大数据 申请 集合 应用 | ||
本申请公开了一种实体对齐方法和装置,涉及大数据领域,用于提高基于向量空间表示的实体对齐效率。实体对齐方法包括:读取训练模型,其中,训练模型中包括实体的向量和关系的向量;针对给定实体及对应的关系,根据训练模型构造候选实体关系对集合;根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体,其中,打分函数中包括给定实体的向量与候选实体的向量之间的属性相似度,当属性相似度值越高时打分函数打分值越高。本申请实施例应用于实体对齐。
技术领域
本申请涉及大数据领域,尤其涉及一种实体对齐方法和装置。
背景技术
网络大数据时代的到来,使得网络上的数据呈爆炸式的增长。这些数据包含大量有价值的实体相关的信息,这里的实体指的是具体的某个现实社会中的对象,例如张艺谋、十面埋伏、巩俐等。根据其来源的不同,可以分为三类:垂直服务网站的实体数据、在线百科中的实体页面数据、开放新闻网页中实体相关的数据。不同的数据来源对同一个实体的名称表述可能不同。例如,《X战警:天启》这部电影,在不同的视频网站描述名称不同,例如《变种特攻:天启灭世战》、《X战警:启示录》等。这就需要对不同数据来源的视频信息进行对齐,即确定是否描述的是同一个实体。因此衍生出了实体对齐技术。
目前比较有效的实体对齐技术是基于向量空间表示的实体对齐技术,即将实体的知识图谱表示成向量空间中的向量,通过各实体在向量空间中的位置等信息,预测各实体间的对齐关系。
具体地,首先,通过优化一个基于间隔的损失函数,将知识图谱的点(实体)和边(实体间关系)表示成向量空间中的向量;然后,针对给定实体生成候选实体集合;最后,根据实体关系对打分函数对候选实体进行打分,取分数最高的作为对齐的实体,实现实体对齐的工作。常用的向量空间表示方法是TransE方法等。
现有技术的打分函数将所有实体关系对统一进行打分,实际上打分效率并不高。比如,对上映时间差距较大的两个视频实体进行打分;将视频实体与人物类型实体进行打分等。
发明内容
本申请的实施例提供一种实体对齐方法和装置,用于提高基于向量空间表示的实体对齐效率。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种实体对齐方法,包括:读取训练模型,其中,训练模型中包括实体的向量和关系的向量;针对给定实体及对应的关系,根据训练模型构造候选实体关系对集合,其中,实体关系对集合中包括至少一个候选实体关系对,每个候选实体关系对包括给定实体、关系和候选实体,并且候选实体与给定实体的类型相同;根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体,其中,打分函数中包括给定实体的向量与候选实体的向量之间的属性相似度,当属性相似度值越高时打分函数打分值越高。本申请实施例提供的实体对齐方法通过在打分函数中加入属性相似度,并且当属性相似度值越高时打分函数打分值越高,无须经过人工对属性相似度进行阈值调整以及复杂的特征选取,提高基于向量空间表示的实体对齐效率。
在一种可能的设计中,当给定实体为尾实体t,对应的关系为r,候选实体为头实体h'时,打分函数为其中,表示h'和t的向量相似度,Dist(h',t)表示h'和t的属性相似度,w表示惩罚力度,取值范围为0到1,其中,Dist(h',t)=|tt-h't|+EditDist(tattribute,h'attribute),其中,tt表示t的时间,h't表示h'的时间,tattribute表示t的属性,h'attribute表示h'的属性,EditDist(tattribute,h'attribute)表示属性之间的编辑距离。该设计提供了一种打分函数的具体实现方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为软件技术有限公司,未经华为软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710230135.0/2.html,转载请声明来源钻瓜专利网。





