[发明专利]知识库实体归一方法、系统、终端和计算机可读存储介质有效
申请号: | 201810073982.5 | 申请日: | 2018-01-25 |
公开(公告)号: | CN108154198B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 冯知凡;陆超;徐也;方舟;朱勇;李莹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N5/02 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 张臻贤;李够生 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 实体 方法 系统 终端 计算机 可读 存储 介质 | ||
本发明提出一种知识库实体归一方法、系统、终端和计算机可读存储介质,方法包括获取知识库中的实体集合;采用多种分区方式对实体集合进行预分区;根据预分区的结果进行样本构建;根据预分区的结果进行特征构建;通过至少一个归一模型对各个实体对进行归一判定;对归一判定的结果进行集合划分。系统包括获取模块用于获取知识库中的实体集合;多维分区模块用于对实体集合进行预分区;样本构建模块用于根据预分区的结果进行样本构建;特征构建模块用于根据预分区的结果进行特征构建;归一判定模块,用于对预分区的结果中的各实体对进行归一判定;集合划分模块用于对归一判定的结果进行集合划分。本发明能够解决大规模知识库的实体归一问题。
技术领域
本发明涉及数据库构建技术领域,特别涉及一种基于知识库的大规模开放域实体归一方法、系统、终端和计算机可读存储介质。
背景技术
知识库构建是一项非常复杂困难的技术问题,因此现有方法一般只针对小规模的单垂类知识库(百万-千万级实体)进行处理。而在面向大规模的知识库(亿级实体)时,无法高效解决大规模实体归一计算问题。另一方面,由于实体数据形态差异大,单一的分类方案无法解决所有的归一问题,无法统一高效的支持各种属性、类目以及问题场景,因此现有方式是对知识库实体进行特化处理,将其中的属性信息薄的实体直接过滤掉不做处理,并且在实体信息质量上也作了相关处理。
在背景技术中公开的上述信息仅用于加强对本发明的背景的理解,因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。
发明内容
本发明实施例提供一种知识库实体归一方法、系统、终端和计算机可读存储介质,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种知识库实体归一方法,包括:
获取知识库中的实体集合;
采用多种分区方式相结合对所述实体集合进行预分区;
根据所述预分区的结果进行样本构建,提取关键样本;
根据所述预分区的结果进行特征构建,提取相似特征;
通过至少一个归一模型结合所述关键样本和所述相似特征,对各个所述实体对进行归一判定,判定各所述实体对是否为相同实体;以及
对所述归一判定的结果进行集合划分。
结合第一方面,本发明在第一方面的第一种实施方式中,所述分区方式至少为两种,对所述实体集合进行所述预分区的步骤为:
通过第一种所述分区方式对所述实体集合进行分区;以及
通过第二种所述分区方式对所述第一种所述分区方式的分区结果进行再分区。
结合第一方面,本发明在第一方面的第二种实施方式中,所述样本构建包括:基于属性的第一关键样本构建和基于主动学习算法的第二关键样本构建。
结合第一方面的第二种实施方式,本发明在第一方面的第三种实施方式中,所述第一关键样本构建的步骤包括:
对所述预分区的结果中的各所述实体对的关键属性进行提取,根据提取出的所述关键属性对各所述实体重新进行分区、聚合,生成多个新实体对;以及
随机抽取部分所述新实体对进行标注,并作为所述第一关键样本输出。
结合第一方面的第二种实施方式,本发明在第一方面的第四种实施方式中,所述第二关键样本构建的步骤包括:
1)对所述预分区的结果中的部分所述实体对进行标注作为标注样本集,将其余所述实体对作为未标注样本集;
2)根据所述标注样本集构建分类模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810073982.5/2.html,转载请声明来源钻瓜专利网。