[发明专利]基于义原-义项信息提升知识图谱关系预测性能的方法有效
申请号: | 201911388539.8 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111125318B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 赵国帅;李童;黄剑;于海阳;杨震 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F16/951;G06F40/295;G06F40/30 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 义项 信息 提升 知识 图谱 关系 预测 性能 方法 | ||
本发明公开了基于义原‑义项提升知识图谱关系预测性能的方法,该方法的步骤如下:获取知识图谱数据集;获取知识图谱数据集中三元组所对应的文本描述;获取义原‑义项知识库;将知识图谱中的关系和三元组描述表示为基于义原的one‑hot向量;知识图谱嵌入;知识图谱关系预测。本方法在PTransE中关系预测方法的基础之上,利用OpenHowNet开源的义原‑义项数据集,对知识图谱中关系路径对于关系的可靠程度根据关系、关系路径及所涉及的三元组描述的语义信息进行计算,解决了PTransE中仅使用结构信息进行关系预测的问题。使用了义原‑义项的关系预测性能相比于原来的关系预测方法性能有提升。
技术领域
本发明涉及一种基于义原-义项的知识图谱关系预测方法,属于知识图谱领域。
背景技术
知识图谱主要描述真实世界中实体及其相互关系,组织成图,知识图谱如图1所示。知识图谱定义了实体可能的类和实体间的关系。知识图谱允许任意实体间存在潜在的相互关联。知识图谱涵盖各种主题领域。通常知识图谱表示为三元组的集合,其中三元组的形式是(主语、谓词、宾语),主语和宾语是实体,谓词是关系。每个三元组(例如(阿甘正传,电影的语言,英语))表示一个事实。当被应用于问答系统时,只有当一个知识图谱覆盖了该问题的答案,它才能够提供所需答案。尽管已经有大量的世界知识和领域知识的知识图谱,但是它们距离完备还具有很远的距离,例如Freebase中有30%的人物实体缺少记录他们父母信息的三元组。知识图谱补全方法就是向一个已有的知识图谱中增加新的三元组,且加入的三元组必须是客观事实。知识图谱补全方法的一种方法就是从一个知识图谱中已有的三元组来推理新的三元组。近年来的大量基于TransE的知识图谱补全的工作,这些工作从知识图谱结构信息和知识图谱的其他特征信息方面进行了改进。
TransE的改进模型中有部分模型加入了实体描述的语义信息,实体描述的语义信息的最小单位是词。知网所提出的义原-义项是比词更细粒度的语义单元,它对词有了更细粒度的解释(如图2所示)。举例来说,词典中对词的解释所用的词数量远小于词典中词汇数量。PTransE模型考虑了知识图谱两个实体间的关系路径,但是并未加入其他语义信息,而对于PTransE推理给定实体对(实体对形如阿甘正传-英语)中间的一条关系时,每条关系路径对于关系的可靠程度显然是不同的,每条关系具有不同的语义信息,不同的关系路径对于关系的可靠程度与关系路径的语义具有很大关联。例如,对于关系(电影的国家),关系路径(电影的语言,说该语言的主要国家)比关系路径(电影的演员,人的出生地)更有可信度。为了度量上述关系路径对于关系的可靠程度,单纯用关系中单词是不够的,因为关系中的单词较少、数据量少。所以还加入了每条三元组所对应的文本描述。考虑到知网所提供的义原-义项的知识库,具有对单词更细粒度的解释,所以使用义原和义项帮助计算关系路径对于关系的可靠程度。
发明内容
本发明的目的在于提出了一种基于义原-义项的知识图谱的关系预测方法,在PTransE的关系预测方法的基础之上,利用关系的义原表示和三元组文本描述的义原表示计算关系路径对于关系的可靠程度。
为实现上述目的,本发明采用的技术方案为基于PTransE进行改进的基于义原-义项的知识图谱的关系预测方法,如图3所示,该方法的实现步骤如下:
步骤(1)获取知识图谱数据集:
知识图谱主要描述真实世界中实体及其相互关系,组织成图。知识图谱中存有大量的知识,知识主要形式为三元组,形如(头实体,关系,尾实体),例如(阿甘正传,电影的语言,英语)。
步骤(2)获取知识图谱数据集中三元组所对应的文本描述。
关于世界知识的知识图谱,例如Freebase可以通过调用WikipediaAPI从中获取相应实体的页面(页面如图4所示),通过实体名的锚文本、关系和关系的同义词,找到相应三元组的对应描述。
关于领域知识的三元组,则需要根据特定任务,在相应的网站中,通过爬虫进行爬取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911388539.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置