[发明专利]知识库三元组检验的方法与装置有效
申请号: | 201710011368.1 | 申请日: | 2017-01-06 |
公开(公告)号: | CN106874380B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 赵伟华;张日崇 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 11205 北京同立钧成知识产权代理有限公司 | 代理人: | 杨泽;刘芳 |
地址: | 100191 北京市海淀区学*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 三元 检验 方法 装置 | ||
本发明提供一种知识库三元组检验的方法与装置,通过获取扩展三元组对应的规则,根据初始因子函数和EM算法确定该规则对应的因子函数,并根据该因子函数确定扩展三元组是否可信,进而可以确定是否将该扩展三元组放入知识库中,对知识库进行扩充,提高了知识库扩充的准确性。
技术领域
本发明涉及知识库扩充技术,尤其涉及一种知识库三元组检验的方法与装置。
背景技术
知识库是一种以三元组的形式结构化地存储知识的数据库,用于对某一领域或者某一行业中海量知识进行结构化地存储。例如,一个历史知识库可以存储历史领域中的海量知识,包括各个历史人物、历史事件等。知识库以实例为主要描述对象,采用面向对象的方法表示知识,一个实例是对现实中一个具体或抽象事务的指代。例如,实例可以表示一个人物,也可以表示一座城市、一件事情等。
一个知识库通常包括多个实例,实例的多个属性以及各个实例之间的关系均采用三元组的结构存储。三元组是知识库中用于表示知识的基础结构。它的结构可以表示为<第一语句,关系语句,第二语句>,关系语句用于表示所述第一语句和所述第二语句之间的关系。
知识库扩充是指在原知识库不完备的情况下,通过数据挖掘的方法,利用已知的表示知识的三元组预测未知的三元组,以在原知识库中扩展新的三元组,使得知识库更加完备。因此,检验新的三元组是否可信成为亟需解决的技术问题。
发明内容
本发明提供一种知识库三元组检验的方法与装置,以解决现有技术中扩展的三元组不可信等缺陷。
本发明第一个方面提供一种知识库三元组检验的方法,包括:
获取扩展三元组对应的规则,所述扩展三元组是基于现有知识库中的原三元组和所述规则进行扩展操作得到的三元组,所述扩展三元组包括至少由第一语句、关系语句、第二语句组成的有序集合,所述关系语句用于表示所述第一语句和所述第二语句之间的关系;
确定所述规则对应的因子函数,所述因子函数用于表示所述规则是否正确的概率,所述因子函数是根据初始因子函数和EM算法获得的;
根据所述因子函数确定所述扩展三元组是否可信。
根据如上所述的方法,可选地,所述根据所述因子函数确定所述扩展三元组是否可信包括:
根据置信传播和所述因子函数确定所述扩展三元组对应的第一概率分布和第二概率分布,所述第一概率分布用于表示所述扩展三元组应该可信的概率,所述第二概率分布用于表示所述扩展三元组不可信的概率,且所述第二概率分布=1-所述第一概率分布;
根据目标概率分布和预设阈值确定所述扩展三元组是否可信,所述目标概率分布为所述第一概率分布或所述第二概率分布。
根据如上所述的方法,可选地,所述根据目标概率分布和所述预设阈值确定所述扩展三元组是否可信包括:
若所述预设阈值为可信的阈值,则所述目标概率分布为第一概率分布,若所述目标概率分布大于或等于所述预设阈值,则确定所述扩展三元组可信;若所述目标概率分布小于所述预设阈值,则确定所述扩展三元组不可信;
若所述预设阈值为不可信的阈值,则所述目标概率分布为第二概率分布,若所述目标概率分布大于或等于所述预设阈值,则确定所述扩展三元组不可信;若所述目标概率分布小于所述预设阈值,则确定所述扩展三元组可信。
根据如上所述的方法,可选地,所述确定所述规则对应的因子函数包括:
根据如下公式确定通过所述EM算法进行迭代操作之后的所述因子函数f(t+1):
f(t+1)=f(t)*[f’(t)/p(t)];
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710011368.1/2.html,转载请声明来源钻瓜专利网。