[发明专利]知识图谱向量表示方法、知识图谱关系推理方法及系统在审
| 申请号: | 201710041593.X | 申请日: | 2017-01-20 |
| 公开(公告)号: | CN106909622A | 公开(公告)日: | 2017-06-30 |
| 发明(设计)人: | 程学旗;贾岩涛;李曼玲;王元卓;靳小龙;苏佳林 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识 图谱 向量 表示 方法 关系 推理 系统 | ||
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于特定路径翻译的知识图谱的关系推理方法和系统。
背景技术
知识图谱是知识工程中以图的形式组织的知识集群,其由不同类型的实体作为节点、关系作为连接节点的边所构成的。在知识图谱中,实体指真实世界中的客观物体(例如,贝拉克·奥巴马),或者人类思想中的抽象概念(例如,美国的第44届总统)。关系则是描述两个实体之间的实际关系(例如,贝拉克·奥巴马是美国的第44届总统,即贝拉克·奥巴马与美国的第44届总统之间存在“是”的关系)。
在已知的知识图谱中,实体类型有人物、事件、组织机构、地点等,而它们之间的关系类型也十分多样化。不同的实体类型所关注的关系也是不同的。例如,对于人物实体之间,常见关系有亲人及朋友关系;对于人与组织机构之间,常见关系有工作单位、毕业院校等。这些已知的实体间的关系在原始的知识图谱中比较稀疏,而实际上实体间还存在大量的隐含关系,可以通过知识图谱中已有的知识和关系,来发掘或推理这些隐含关系。
最常用的推理方法是基于规则的方法,即通过对已有知识的分析,制定合适的推断规则,最终由这些规则推出实体间的关系。但这种方法由人工来制定规则,工作量很大且能制定的规则数量有限,涵盖范围较小,具有较大的局限性。为了减少规则的人工标注量,另一个常用的知识图谱的关系推理方法是根据已有知识通过机器学习自动地获得规则,例如,利用现有的transE、transR、transH等基于翻译的模型,但这种方法的效果较为依赖于对特征的选择和模型的参数的选择,在不同领域的知识图谱中迁移需要花费较多精力,例如,对于学术领域的关系推理,如合作关系等,更侧重于研究热点的内容相似度特征,且有效路径长度通常较短;而人物关系领域的关系推理更侧重于结构相似度特征,且有效路径长度可能较长,因此,在实际应用中,不同领域的知识图谱之间的迁移具有局限性。此外,在传统的自动学习方法的模型中,通常是通过基于间隔的损失函数来衡量学习的精确度,间隔通常从候选值中预先选择,而且,该间隔在学习过程中是固定不变的。这种固定不变的间隔不能自适应的调节不同知识图谱、不同的实体和关系的学习的精确性。
发明内容
本发明的目的在于克服上述现有技术中的缺陷,提供一种改进的知识图谱的关系推理方法。
根据本发明的第一方面,提供了一种知识图谱的向量表示方法,包括:
步骤1:将知识图谱中的实体对、关系和所述实体对之间的多步关系路径表示为初始低维向量;
步骤2:利用间隔可变的损失函数训练所述实体对、关系和所述实体对之间的多步关系路径的低维向量表示的模型。
优选地,所述损失函数包括实体对和关系的损失以及实体对和多步关系路径的损失。
优选地,所述实体对和关系的损失定义为:
其中,Δ为三元组(h,r,t)构成的训练集,h为头实体,t为尾实体,r表示两者间的关系;Z表示训练集Δ的模数;Δ′表示实体对和关系的负例三元组,三元组(h′,r′,t′)∈Δ′,是将(h,r,t)∈Δ中的h,r,t替换为h′,r′,t′所获得的;h,r,t,h′,r′,t′∈Rd,Rd表示维数为d的低维向量空间;[x]+返回x与0两者中的较大值;||·||表示L1或L2范式;γ是三元组的正例和负例之间的间隔。
优选地,所述实体对和多步关系路径的损失定义为:
Lp,r=[||p-r||+Mpath(p)-||p-r′||]+
其中,Mpath(p)为多步关系路径正反例之间的间隔,定义为Mpath(p)=minr,r′|||p-r′||-||p-r|||,p是多步关系路径的向量表示;r′为负例关系r′∈Nh,t中的低维向量表示向量,Nh,t为知识图谱中负例三元组(h,r′,t)的集合;||·||表示L1或L2范式。
优选地,所述多步关系路径的长度低于阈值。
优选地,在步骤2中的训练过程中,采用梯度下降法来更新所述损失函数。
根据本发明的第二方面,提供了一种知识图谱的关系推理方法。该方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710041593.X/2.html,转载请声明来源钻瓜专利网。





