[发明专利]用于在第一表和第二表之间进行域匹配的方法和装置在审
申请号: | 201410277026.0 | 申请日: | 2014-06-19 |
公开(公告)号: | CN105205068A | 公开(公告)日: | 2015-12-30 |
发明(设计)人: | 皮冰锋;邹纲;张军;钟朝亮 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 朱胜;陈炜 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 第一 第二 之间 进行 匹配 方法 装置 | ||
技术领域
本发明涉及一种用于在第一表和第二表之间进行域匹配的方法和装置。
背景技术
随着网络应用的普及,网络上会出现很多同质的数据信息,但是数据结构的表示却不一致。例如一些用户数据会保存在Excel中,但是随着数据数量的增多,数据参数的个数有所增加,因此另外一些用户数据会保存在数据库中。为了获得一个全局统一的数据视图,有必要找出这些数据源之间的对应关系。
大多数的数据匹配只是基于数据域的元信息,例如域名称的相似度和域类型的相似度等。但是在有些情况下,域名称可能会有很大的不同。例如,在Excel的一个表中可能用“corporate”这个表头来代表公司名称,而在数据库的另一个表中则用“enterprise”代表公司名称。在这种情况下,使用传统技术在这两个表之间进行域匹配的结果就不理想。
针对现有技术中存在的缺陷,提出本申请。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于提供一种用于在第一表和第二表之间进行域匹配的方法和装置,以至少克服现有的问题。
根据本发明的一个方面,提供了一种用于在第一表和第二表之间进行域匹配的方法,包括:基于第一表和第二表的域统计信息,确定第一表的候选关键域和第二表的候选关键域;分别计算第一表的每个候选关键域与第二表的每个候选关键域的相似度,以获得匹配的一个或多个关键域对;及基于匹配的一个或多个关键域对,计算除了一个或多个关键域对之外的、第一表的每个剩余域与第二表的每个剩余域的相似度,以获得匹配的一个或多个剩余域对。
根据本发明的又一个方面,提供了一种用于在第一表和第二表之间进行域匹配的装置,包括:候选关键域确定单元,被配置成基于第一表和第二表的域统计信息,确定第一表的候选关键域和第二表的候选关键域;关键域对获得单元,被配置成分别计算第一表的每个候选关键域与第二表的每个候选关键域的相似度,以获得匹配的一个或多个关键域对;及剩余域对获得单元,被配置成基于匹配的一个或多个关键域对,计算除了一个或多个关键域对之外的、第一表的每个剩余域与第二表的每个剩余域的相似度,以获得匹配的一个或多个剩余域对。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
根据本发明实施例的方法和装置,在对两个表进行域匹配的过程中,首先识别出关键域及其匹配关系,然后利用匹配的关键域来对非关键域(剩余域)进行匹配,从而提高了匹配的准确性。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其它优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示意性地示出根据本发明的实施例的用于在第一表和第二表之间进行域匹配的方法的流程图;
图2是示意性地示出根据本发明的实施例的用于计算取值相似度的方法的流程图;
图3示出了待匹配的两个表的部分信息;
图4示出了对图3中的两个表所计算出的相似度矩阵及所获得的匹配的多个关键域对;
图5是示意性地示出根据本发明的实施例的用于进行一致化处理的方法的流程图;
图6示意性地示出了映射和简化处理的过程;
图7示意性地示出了在一致化处理之后再对剩余域进行匹配的方法的流程图;
图8示意性地示出了对于图3中的示例所计算出的两个值的相似度;
图9示意性地示出了更新后的相似度矩阵以及获得的匹配的域对;
图10是示意性地示出根据本发明的一个实施例的用于在第一表和第二表之间进行域匹配的装置的框图;
图11是示意性地示出根据本发明的一个实施例的用于在第一表和第二表之间进行域匹配的装置中所包括的关键域对获得单元的示例框图;
图12是示意性地示出根据本发明的另一实施例的用于在第一表和第二表之间进行域匹配的装置的框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410277026.0/2.html,转载请声明来源钻瓜专利网。