[发明专利]检验知识库三元组的方法及装置有效
申请号: | 201610973962.4 | 申请日: | 2016-10-28 |
公开(公告)号: | CN108021595B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 谢海华;黄肖俊;吕肖庆;汤帜 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京方正阿帕比技术有限公司 |
主分类号: | G06F16/30 | 分类号: | G06F16/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 宋扬;刘芳 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检验 知识库 三元 方法 装置 | ||
本发明提供一种检验知识库三元组的方法及装置。该方法包括:获取语料库中M个用于表征第一关系的词语作为目标特征词,并获取所述目标特征词的第一权重值;根据所述第一权重值,获取知识库中关系为所述第一关系的待检验的三元组的置信度;根据所述置信度确定所述待检验的三元组是否可信。本发明提供的方法,通过获取待检验的三元组的置信度确定待检验的三元组是否可信,可实现单独或批量检验,提高检验的效率,可以节约实际应用中人工校验的成本,大幅度提升构建高品质知识库的效率;并且通过置信度检验三元组可信程度较为准确,在对不同类型知识库三元组做信息校验时通用性较强,可应用于任何知识库的三元组检验中。
技术领域
本发明实施例涉及知识库领域,尤其涉及一种检验知识库三元组的方法及装置。
背景技术
知识服务是指从各种显性和隐性知识资源中按照人们的需要有针对性地提炼知识、并用来解决用户问题的高级信息服务过程。知识库作为知识服务中重要的数据组织形式,其内容的准确性直接决定了知识服务的有效性,通常由若干三元组组成。
但是,构建知识库的数据来源复杂多样,仅从形式上就有结构化数据,半结构化数据和非结构化数据,加之抽取过程中可能出现错误,基于这些数据源构建的知识库中难免存在错误的信息。一类典型的错误是三元组所表达的关系错误,例如:三元组李白,师生,杜甫表示李白和杜甫有师生关系,但这实际上是错误的。对于这类错误,如果借助人工来检查,在效率上难以满足建设大规模知识库的需要。
因此,需要一种方式,能够快速地检验知识库中的三元组是否可信。
发明内容
本发明实施例提供一种检验知识库三元组的方法及装置,以提高检验三元组可信程度的准确性,提高检测效率,节约实际应用中人工校验的成本,提升构建高品质知识库的效率。
本发明的一个方面是提供一种检验知识库三元组的方法,包括:
获取语料库中M个用于表征第一关系的词语作为目标特征词,并获取所述目标特征词的第一权重值,所述语料库包括多个语句,各所述语句包括至少一个词语,其中,M为正整数;
根据所述第一权重值,获取知识库中关系为所述第一关系的待检验的三元组的置信度,其中,所述知识库中包括多个三元组,各三元组为有序集合,所述有序集合均包括主体、用于表征所述第一关系的关系语句及客体,所述第一关系为所述主体与所述客体之间的关系;
根据所述置信度确定所述待检验的三元组是否可信。
进一步的,所述根据所述第一权重值,获取知识库中关系为所述第一关系的待检验的三元组的置信度,包括:
获取所述待检验的三元组的所述主体和所述客体在所述语料库中所有的共现句,所述共现句为所述语料库中同时包括所述主体和所述客体的语句;
若所述共现句包括所述目标特征词,则根据如下公式获取所述目标特征词在所述共现句中与所述主体和所述客体的相对距离Dis(wi,Sub,Obj,Senk):
其中,p(wi,Senk)表示目标特征词wi在所述共现句Senk中位置,其中i=1,2…M,p(Sub,Senk)表示所述主体Sub在所述共现句Senk中位置,p(Obj,Senk)表示所述客体Obj在所述共现句Senk中位置;
根据如下公式获取所述待检验三元组的置信度Confidence:
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京大学;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610973962.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:清洁器具
- 下一篇:流体分配器本体和卫浴淋浴