[发明专利]基于迭代匹配的大型异构知识库对齐方法有效

申请号：	201710237034.6	申请日：	2017-04-12
公开（公告）号：	CN107145523B	公开（公告）日：	2019-10-18
发明（设计）人：	陈岭;顾伟东	申请（专利权）人：	浙江大学
主分类号：	G06F16/28	分类号：	G06F16/28
代理公司：	杭州天勤知识产权代理有限公司 33224	代理人：	胡红娟
地址：	310013 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于匹配大型知识库对齐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于迭代匹配的大型异构知识库对齐方法，具体包括：

数据预处理阶段：对任意两个原知识库KB₁、KB₂中的数据进行筛选、统一数据格式以及剔除无意义字符处理，并统计获取与处理后知识库KB′₁相对应的关系集R₁、与处理后知识库KB′₂相对应的关系集R₂，比较获取初始匹配实体对集

知识库对齐阶段：利用关系集R₁与关系集R₂中的关系对知识库KB′₁和知识库KB′₂进行分区，并对每个区块进行精简，得到精简区块集B′₁和B′₂；然后，利用初始匹配实体对集匹配精简区块集B′₁和B′₂中的区块，得到匹配区块对，最后，在匹配区块对中挑选候选实体对，并结合相似度度量方法和阈值确认候选实体对。

2.如权利要求1所述的基于迭代匹配的大型异构知识库对齐方法，其特征在于，所述的数据预处理阶段的具体步骤为：

(1-1)输入任意两个原知识库KB₁、KB₂，并去除知识库KB₁、KB₂中与对齐任务无关的信息；

(1-2)对知识库KB₁中的字面量L₁和知识库KB₂中的字面量L₂统一数据格式，将日期、数字、姓名表示为统一格式；

(1-3)去除知识库KB₁中的字面量L₁和知识库KB₂中的字面量L₂中停用词字符、符号字符、语言标签字符，得到处理后知识库KB′₁和KB′₂；

(1-4)统计获取与知识库KB′₁相对应的关系集R₁、与知识库KB′₂相对应的关系集R₂；

(1-5)比较知识库KB′₁与知识库KB′₂中的所有实体，获取初始匹配实体对集

3.如权利要求2所述的基于迭代匹配的大型异构知识库对齐方法，其特征在于，所述步骤(1-4)的具体过程为：

对于知识库KB′₁，遍历属于该知识库的三元组集合F_R1中的所有的实体-关系-实体三元组，统计得到关系集R₁；对于知识库KB′₂，遍历属于该知识库的三元组集合F_R2中的所有的实体-关系-实体三元组，统计得到关系集R₂。

4.如权利要求2所述的基于迭代匹配的大型异构知识库对齐方法，其特征在于，步骤(1-5)中，所述的初始匹配实体对集的获取过程为：

首先，提取知识库KB′₁中的所有实体组成实体集E₁，提取知识库KB′₂中的所有实体组成实体集E₂；并以实体集E₁中的任一实体与实体集E₂中的任一实体的笛卡尔积作为实体对，组成实体对集；

然后，筛选获取实体对集中两实体姓名属性的字符串表示完全相同的实体对，得到预初始匹配实体对集；

最后，筛选预初始匹配实体对集中具有一对一匹配关系的实体对，作为初始匹配实体对集