[发明专利]基于学习排序算法的知识库补全方法及装置有效
申请号: | 201810059641.2 | 申请日: | 2018-01-22 |
公开(公告)号: | CN108228877B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 黄勇;王志春 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/383 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 排序 算法 知识库 方法 装置 | ||
1.一种基于学习排序算法的知识库补全方法,其特征在于,包括:
S1、对于待补全的知识库中的每一个待预测关系的头尾实体对,基于目标关系类型构建该头尾实体对对应比例的负实体对,对该头尾实体对和所述负实体对抽取关系路径,根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量;
S2、将所述关系路径特征向量输入预先训练的学习排序模型,获得该头尾实体对和所述负实体对的得分排序,其中,所述学习排序模型采用学习排序算法进行训练;
S3、若根据所述得分排序判断获知该头尾实体对排序在第一位,则确定该头尾实体对属于该目标关系类型,通过将该头尾实体对补入该目标关系类型下的三元组中,对该知识库进行补全;
在所述S1之前,还包括:
对于给定的知识库中每一个关系类型下的每个正实体对,构建该正实体对对应比例的负实体对,对于该正实体对及其对应比例的负实体对中的每个实体对,在所述给定的知识库中抽取连接该实体对的头实体和尾实体的关系路径,确定每一条关系路径对应的关系路径类型,对所述关系路径对应的关系路径类型进行去重,根据去重后的关系路径类型确定各个实体对的关系路径特征向量;
对于所述每一个关系类型,利用该关系类型对应的所有正实体对和负实体对的关系路径特征向量对预先构建的学习排序模型进行训练,训练的结果是该关系类型的三元组集合的平均准确率指标达到最大,其中,该关系类型的三元组集合的平均准确率指标为该关系类型下的实体对组的排序结果评价指标的均值,每一个实体对组包括一个正实体对及其对应的负实体对;
其中,每一实体对组的排序结果评价指标为该实体对组中的各个实体对对应的数值的均值,每个实体对对应的数值为该实体对组的排序结果中该实体对及其之前的所有实体对中为正实体对的实体对的比例。
2.根据权利要求1所述的方法,其特征在于,所述构建该正实体对对应比例的负实体对,包括:
对于该正实体对,利用该关系类型下的实体随机替换该正实体对的头实体和尾实体,具体来说,用五个头实体分别替换该正实体对的头实体,并用五个尾实体分别替换该正实体对的尾实体,得到该正实体对对应的10个负实体对。
3.根据权利要求1所述的方法,其特征在于,所述学习排序算法为基于LambdaMART的树的学习排序算法。
4.一种基于学习排序算法的知识库补全装置,其特征在于,包括:
第一确定单元,用于对于待补全的知识库中的每一个待预测关系的头尾实体对,基于目标关系类型构建该头尾实体对对应比例的负实体对,对该头尾实体对和所述负实体对抽取关系路径,根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量;
输入单元,用于将所述关系路径特征向量输入预先训练的学习排序模型,获得该头尾实体对和所述负实体对的得分排序,其中,所述学习排序模型采用学习排序算法进行训练;
补全单元,用于若根据所述得分排序判断获知该头尾实体对排序在第一位,则确定该头尾实体对属于该目标关系类型,通过将该头尾实体对补入该目标关系类型下的三元组中,对该知识库进行补全;
第二确定单元,用于在所述输入单元工作之前,对于给定的知识库中每一个关系类型下的每个正实体对,构建该正实体对对应比例的负实体对,对于该正实体对及其对应比例的负实体对中的每个实体对,在所述给定的知识库中抽取连接该实体对的头实体和尾实体的关系路径,确定每一条关系路径对应的关系路径类型,对所述关系路径对应的关系路径类型进行去重,根据去重后的关系路径类型确定各个实体对的关系路径特征向量;
训练单元,用于对于所述每一个关系类型,利用该关系类型对应的所有正实体对和负实体对的关系路径特征向量对预先构建的学习排序模型进行训练,训练的结果是该关系类型的三元组集合的平均准确率指标达到最大,其中,该关系类型的三元组集合的平均准确率指标为该关系类型下的实体对组的排序结果评价指标的均值,每一个实体对组包括一个正实体对及其对应的负实体对;
其中,每一实体对组的排序结果评价指标为该实体对组中的各个实体对对应的数值的均值,每个实体对对应的数值为该实体对组的排序结果中该实体对及其之前的所有实体对中为正实体对的实体对的比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810059641.2/1.html,转载请声明来源钻瓜专利网。