[发明专利]用于在第一表和第二表之间进行域匹配的方法和装置在审
申请号: | 201410277026.0 | 申请日: | 2014-06-19 |
公开(公告)号: | CN105205068A | 公开(公告)日: | 2015-12-30 |
发明(设计)人: | 皮冰锋;邹纲;张军;钟朝亮 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 朱胜;陈炜 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 第一 第二 之间 进行 匹配 方法 装置 | ||
1.一种用于在第一表和第二表之间进行域匹配的方法,包括:
基于所述第一表和所述第二表的域统计信息,确定所述第一表的候选关键域和所述第二表的候选关键域;
分别计算所述第一表的每个候选关键域与所述第二表的每个候选关键域的相似度,以获得匹配的一个或多个关键域对;及
基于所述匹配的一个或多个关键域对,计算除了所述一个或多个关键域对之外的、所述第一表的每个剩余域与所述第二表的每个剩余域的相似度,以获得匹配的一个或多个剩余域对。
2.根据权利要求1所述的方法,其中分别计算所述第一表的每个候选关键域与所述第二表的每个候选关键域的相似度进一步包括:根据所述候选关键域的名称相似度、类型相似度以及取值相似度,计算所述候选关键域的相似度。
3.根据权利要求2所述的方法,其中针对所述第一表的一个候选关键域与所述第二表的一个候选关键域,通过下面的步骤来计算所述取值相似度:
获取第一域值集合和第二域值集合,所述第一域值集合是所述第一表的一个候选关键域的域值的集合,所述第二域值集合是所述第二表的一个候选关键域的域值的集合;
分别计算所述第一域值集合和所述第二域值集合的交集和并集;及
通过将所述交集中的域值的个数除以所述并集中的域值的个数,计算所述取值相似度。
4.根据权利要求1所述的方法,还包括:
以相似度最高的一个关键域对的域值作为键并且以一个其余关键域对的域值作为值,对所述第一表和所述第二表进行映射和简化处理;
检测映射和简化处理结果中的每个键是否存在两个值,以及所述两个值是否存在不一致性;及
如果存在不一致性,则根据所述第一表和所述第二表的属性,将一个表中的对应域值更新为另一个表中的对应域值。
5.根据权利要求4所述的方法,其中表的属性包括表优先级、表干净程度及表创建时间中的至少一个。
6.根据权利要求4所述的方法,其中基于所述匹配的一个或多个关键域对,计算除了所述一个或多个关键域对之外的、所述第一表的每个剩余域与所述第二表的每个剩余域的相似度进一步包括:
以所述关键域的一致性处理后的域值作为键并且以所述剩余域的域值作为值,对所述第一表和所述第二表进行映射和简化处理;
通过对于映射和简化处理结果中存在两个值的每个键,计算所述两个值的相似度,从而计算所述剩余域的取值相似度;及
根据所述剩余域的名称相似度、类型相似度以及计算出的剩余域的取值相似度,计算所述剩余域的相似度。
7.根据权利要求1所述的方法,其中所述候选关键域是域值不重复、域值不为无效或空值并且域值类型一致的域。
8.一种用于在第一表和第二表之间进行域匹配的装置,包括:
候选关键域确定单元,被配置成基于所述第一表和所述第二表的域统计信息,确定所述第一表的候选关键域和所述第二表的候选关键域;
关键域对获得单元,被配置成分别计算所述第一表的每个候选关键域与所述第二表的每个候选关键域的相似度,以获得匹配的一个或多个关键域对;及
剩余域对获得单元,被配置成基于所述匹配的一个或多个关键域对,计算除了所述一个或多个关键域对之外的、所述第一表的每个剩余域与所述第二表的每个剩余域的相似度,以获得匹配的一个或多个剩余域对。
9.根据权利要求8所述的装置,其中所述关键域对获得单元根据所述候选关键域的名称相似度、类型相似度以及取值相似度,计算所述候选关键域的相似度。
10.根据权利要求9所述的装置,其中所述关键域对获得单元进一步包括:
域值集合获取部,被配置成获取第一域值集合和第二域值集合,所述第一域值集合是所述第一表的一个候选关键域的域值的集合,所述第二域值集合是所述第二表的一个候选关键域的域值的集合;
交集和并集计算部,被配置成分别计算所述第一域值集合和所述第二域值集合的交集和并集;及
取值相似度计算部,被配置成通过将所述交集中的域值的个数除以所述并集中的域值的个数,计算所述取值相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410277026.0/1.html,转载请声明来源钻瓜专利网。