[发明专利]一种实体对齐方法和装置在审
| 申请号: | 201710230135.0 | 申请日: | 2017-04-10 |
| 公开(公告)号: | CN108694201A | 公开(公告)日: | 2018-10-23 |
| 发明(设计)人: | 贾岩涛;李曼玲;刘诗凯;邓拯宇 | 申请(专利权)人: | 华为软件技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 对齐 向量 候选实体 训练模型 方法和装置 属性相似度 读取 目标实体 向量空间 大数据 申请 集合 应用 | ||
1.一种实体对齐方法,其特征在于,包括:
读取训练模型,其中,所述训练模型中包括实体的向量和关系的向量;
针对给定实体及对应的关系,根据所述训练模型构造候选实体关系对集合,其中,所述实体关系对集合中包括至少一个候选实体关系对,每个候选实体关系对包括给定实体、关系和候选实体,并且所述候选实体与所述给定实体的类型相同;
根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体,其中,所述打分函数中包括所述给定实体的向量与候选实体的向量之间的属性相似度,当所述属性相似度值越高时所述打分函数打分值越高。
2.根据权利要求1所述的方法,其特征在于,当所述给定实体为尾实体t,对应的关系为r,候选实体为头实体h'时,
所述打分函数为其中,表示h'和t的向量相似度,Dist(h',t)表示h'和t的属性相似度,w表示惩罚力度,取值范围为0到1,
其中,Dist(h',t)=|tt-h't|+EditDist(tattribute,h'attribute)
其中,tt表示t的时间,h't表示h'的时间,tattribute表示t的属性,h'attribute表示h'的属性,EditDist(tattribute,h'attribute)表示属性之间的编辑距离。
3.根据权利要求1所述的方法,其特征在于,在所述读取训练模型之前,所述方法还包括:
根据知识图谱的至少一个实体关系对(h,r,t)得到正例实体关系对集合Δ、负例实体关系对集合Δ'、与头实体h按照关系r构成的正例集Pr={t|(h,r,t)∈Δ}以及与头实体h按照关系r构成的负例集其中,R表示关系集合,所述实体关系对(h,r,t)包括头实体h、关系r和尾实体t,所述正例实体关系对集合Δ表示所述知识图谱中存在的实体关系对(h,r,t)的集合,所述负例实体关系对集合Δ'表示所述知识图谱中不存在的实体关系对(h',r',t')的集合;
根据给定维度,初始化所述知识图谱的实体关系对(h,r,t)中的头实体向量、关系向量和尾实体向量,其中,每个头实体h对应一个头实体向量,每个关系r对应一个关系向量,每个尾实体t对应一个尾实体向量;
针对特定实体h及对应关系r,根据所述正例集Pr以及负例集Nr,计算所述特定实体h的实体间隔Mh;
根据所述正例实体关系对集合Δ、所述负例实体关系对集合Δ'和所述实体间隔Mh计算损失函数;
对实体关系对的头实体向量、关系向量和尾实体向量迭代进行更新,当所述损失函数满足预设条件时,更新得到的头实体向量、关系向量和尾实体向量作为所述训练模型。
4.根据权利要求3所述的方法,其特征在于,所述针对特定实体h,根据所述正例集Pr以及负例集Nr,计算所述特定实体的实体间隔Mh,包括:
针对特定实体h及其对应的关系r,选择和计算实体间隔Mh=mint,t”δ(||h-t”||-||h-t||),其中,||·||表示L1或L2范式,mint,t”表示从所有根据t或t”计算的结果中取最小值。
5.根据权利要求3所述的方法,其特征在于,所述损失函数为:
其中,Mh表示与头实体h对应的实体间隔,[x]+返回x与0两者中的较大值,||·||表示L1或L2范式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为软件技术有限公司,未经华为软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710230135.0/1.html,转载请声明来源钻瓜专利网。





