[发明专利]实体知识库的构建方法和装置有效
申请号: | 201310752626.3 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103678714B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 王海峰;赵世奇;吴华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 知识库 构建 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种实体知识库的构建方法和装置。
背景技术
近年来,知识搜索越来越受到学术界与工业界的重视,被认为是信息搜索的发展方向之一。尤其是随着谷歌、百度等公司相继推出知识图谱(knowledge graph)类产品,使得知识搜索融入到普通用户的信息获取过程中。
对于知识图谱类产品而言,基础工作是实体知识库的构建。在本说明书中实体知识库由三元组知识构成,所谓三元组知识,是指实体、属性和属性值,在本说明书中,三元组知识也称为实体知识。例如“刘德华-妻子-朱丽倩”就是一条典型的三元组知识,其中实体为“刘德华”,属性为“妻子”,属性值为“朱丽倩”。
目前,通常从结构化、半结构化或者无结构化的语料库中挖掘大规模的实体知识,以构建实体知识库。然而,很多知识是放之四海而皆准的客观知识,如“美国-首都-华盛顿”、“刘德华-妻子-朱丽倩”等。这些知识在其他语言的实体知识库中可能已经存在了,但是在当前目标语言的实体知识库中却并不存在,需要重新去挖掘,造成资源的大量浪费。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种实体知识库的构建方法。该方法无需在目标语言中重新挖掘实体知识以构建实体知识库,减少资源的大量浪费。
本发明的第二个目的在于提出一种实体知识库的构建装置。
为了实现上述目的,本发明第一方面实施例的实体知识库的构建方法,包括:获取源语言中的实体知识,所述实体知识包括实体、属性和属性值;获取所述实体知识在目标语言中的多个待选翻译实体知识,所述源语言和所述目标语言为不同的语言;分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次;根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识,以根据所述翻译实体知识构建所述目标语言的实体知识库。
本发明实施例的实体知识库的构建方法,对源语言的实体知识进行翻译以获取目标语言的多个待选翻译实体知识,并从多个待选翻译实体知识中选择正确、可能性最大的翻译实体知识作为目标语言的实体知识,无需在目标语言中重新挖掘实体知识以构建实体知识库,减少资源的大量浪费,同时,也提升实体知识库的构建效率。
为了实现上述目的,本发明第二方面实施例的实体知识库的构建装置,包括:第一获取模块,用于获取源语言中的实体知识,所述实体知识包括实体、属性和属性值;第二获取模块,用于获取所述实体知识在目标语言中的多个待选翻译实体知识,所述源语言和所述目标语言为不同的语言;第三获取模块,用于分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次;筛选模块,用于根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识,以根据所述翻译实体知识构建所述目标语言的实体知识库。
本发明实施例的实体知识库的构建装置,对源语言的实体知识进行翻译以获取目标语言的多个待选翻译实体知识,并从多个待选翻译实体知识中选择正确、可能性最大的翻译实体知识作为目标语言的实体知识,无需在目标语言中重新挖掘实体知识以构建实体知识库,减少资源的大量浪费,同时,也提升实体知识库的构建效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的实体知识库的构建方法的流程图;
图2是根据本发明一个实施例的实体知识库的构建装置的结构示意图;
图3是根据本发明另一个实施例的实体知识库的构建装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310752626.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用户反馈数据处理方法和装置
- 下一篇:一种页面特征表示方法、装置及设备