[发明专利]基于学习排序算法的知识库补全方法及装置有效
申请号: | 201810059641.2 | 申请日: | 2018-01-22 |
公开(公告)号: | CN108228877B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 黄勇;王志春 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/383 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 排序 算法 知识库 方法 装置 | ||
本发明实施例公开一种基于学习排序算法的知识库补全方法及装置,能提高知识库补全的正确率。方法包括:对于待补全的知识库中的每一个待预测关系的头尾实体对,基于目标关系类型构建该头尾实体对对应比例的负实体对,对该头尾实体对和所述负实体对抽取关系路径,根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量;将所述关系路径特征向量输入预先训练的学习排序模型,获得该头尾实体对和所述负实体对的得分排序,其中,所述学习排序模型采用学习排序算法进行训练;若根据所述得分排序判断获知该头尾实体对排序在第一位,则确定该头尾实体对属于该目标关系类型,通过将该头尾实体对补入该目标关系类型下的三元组中,对该知识库进行补全。
技术领域
本发明实施例涉及通信领域,具体涉及一种基于学习排序算法的知识库补全方法及装置。
背景技术
YAGO,DBpedia和Freebase等知识库已经成功地应用于网络搜索引擎,例如Google、Baidu使用维基百科知识库和Freebase为检索添加结构化的信息,并构建大规模的语义知识库。一些问答机器人和个人手机助手也被广泛应用,知识库在其中起了重要的作用。
现有的知识库多使用三元组的形式对现实世界中实体的各种知识进行表示,图1给了一个典型的知识库例子,对于图1中三元组北京师范大学,位于,北京,其中“北京师范大学”和“北京”分别表示关系型三元组的头实体和尾实体,“位于”表示关系路径,知识库中的实体是描述现实世界中实实在在存在的事物,而关系描述实体和实体之间存在的联系。然而在现实中存在很多大规模的知识库如DBpedia、Freebase、YAGO、wikidata等,这些知识库通过自动构建技术或者人工手动标注建立,尽管包含上亿条三元组知识,规模庞大,然而这些知识库是不完备的,比如很多人的出生地点未知、很多电影的演员信息也不完全。
为了解决知识库不完备的问题,很多知识库补全的方法被提出来。当前知识库补全方法有两种,基于逻辑符号的方法和基于低维嵌入的方法。常见的逻辑符号方法有AMIE、PRA、SFE等,AMIE方法是通过规则学习挖掘知识库规则的方法,PRA方法基于关系路径权重来预测两个实体之间关系,SFE通过学习在知识库中的隐含路径知识,获得比PRA方法更多的关系路径特征,进一步提高预测准确率。低维嵌入的方法则学习实体和关系的低维度向量表示,用向量相似度计算预测实体之间的关系,常见的低维嵌入方法如TranE、TranH、TranR等。
这些知识库补全方法基于打分模型通过对知识库中未知的实体关系进行预测打分,判断实体对之间是否有特定的关系。例如希望预测北京师范大学是否位于中国这个事实,需要抽取北京师范大学和中国这两个实体相关的关系路径类型特征,并基于这些关系路径类型特征计算头尾实体对的关系路径特征向量,从而来预测北京师范大学和中国是否有“位于”这种关系。如对于实体对北京师范大学和北京,我们可以通过关系路径北京师范大学,位于,北京,位于,中国和北京师范大学,有校长,董奇,居住在,中国可以抽取关系路径类型{位于-位于,……,有校长-居住在}组成关系路径类型集合,并通过抽取“位于”关系下的不同实体对不同的关系路径类型,从而计算获得每个实体对的关系路径特征向量。
但是当前的知识库基于打分模型进行知识库补全有很大不足。一是知识库中正负实体对比例差别很大,对于每个在知识库中实际存在的三元组正实例,可能有成千上万条不存在的三元组负实例相对应,如三元组北京师范大学,位于,中国这个三元组在知识库中实际存在,是一条正实例,而北京师范大学,位于,美国和北京师范大学,位于,日本等上百条负实例与之对应,如何解决正负实体对不匹配的问题很关键,正负实体对比例悬殊,关系预测中仅靠打分是不够的。二是相关的方法都是通过评价三元组得分高低来预测结果的,而并未考虑候选实体对的顺序对预测结果的影响。
发明内容
针对现有技术存在的不足和缺陷,本发明实施例提供一种基于学习排序算法的知识库补全方法及装置。
一方面,本发明实施例提出一种基于学习排序算法的知识库补全方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810059641.2/2.html,转载请声明来源钻瓜专利网。