[发明专利]使用字段级删除邻域的改进的模糊搜索在审
申请号: | 202110550209.5 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113821544A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 丹尼尔·斯科特·坎珀 | 申请(专利权)人: | 律商联讯风险解决方案公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/903;G06F16/22;G06F16/25;G06F16/23 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 韩雪梅 |
地址: | 美国佐治亚州阿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 字段 删除 邻域 改进 模糊 搜索 | ||
本公开提供了有效的数据集搜索和/或去重,其与传统方法相比提高了数据集记录搜索和/或去重的速度和效率。某些实施方式将字段级删除邻域处理应用于以哈希值编码的数据集记录的有序字段排列。一种方法包括:通过以下步骤确定记录的两个或更多个字段组合的字段级删除邻域:确定字段哈希值,创建字段排列,确定每个排列的组合记录哈希值,并将每个记录哈希值与唯一的实体标识符相关联。该方法包括搜索其他实体表示记录以查找匹配组合记录哈希值,以及将唯一的实体标识符和重复实体标识符中的一个或多个分配给具有匹配组合记录哈希值的其他实体表示记录。某些实施方式可以包括从数据库中移除具有重复实体标识符的其他实体表示记录中的至少一个。
技术领域
所公开技术的实施方式通常涉及数据集搜索和/或去重(deduplication),并且更具体地,涉及使用字段级删除邻域的改进的模糊搜索。
背景技术
建立和维护无错误数据集的挑战通常涉及搜索和删除重复记录。检测和消除重复数据库记录的问题是广泛的数据清理和数据质量领域中的主要问题之一。由于拼写、字段格式等的变化,单个现实世界实体可能会在数据库中的不同记录下多次列出。例如,地址为“25W.6th St.”的实体列表也可以复制到数据库的另一条记录中,地址为“25West SixthStreet”。这样的重复记录会产生不必要的费用、错误的更新和不准确的指标。由于转录错误、信息不完整、缺乏标准格式等,记录错误经常被引入到现实世界的应用中。此类问题已在以下出版物中进行了讨论:Elmagarmid,A.K.等人,“Duplicate record detection:Asurvey(重复记录检测:综述)”,IEEE Transactions on knowledge and dataengineering,19,第1期,2006年,第1-16页。
术语“模糊匹配”是指一种技术,该技术用于使用近似字符串匹配来查找相似的单词,以在字符串不完全匹配时找到字符串之间的部分模式匹配。模糊匹配可以是一种有效的方法,用于识别看似不同(即不完全匹配)但表示相同字符串的“模糊重复项”。模糊匹配的应用可能是一项时间和资源密集的任务,尤其是应用于需要搜索可能数百万个字符串的大型数据集时。
模糊匹配的常规解决方案可以利用“Levenshtein距离”来提供字符串之间的相异程度的度量。确定Levenshtein距离的过程包括:接收两个字符串作为输入,并逐个字符地遍历字符串的内容,确定将一个字符串更改为另一个字符串所需的最小单字符编辑(插入,删除或替换)次数。
Levenshtein距离的蛮力应用可用于处理查询字符串,查找可能的拼写错误,和/或建议在约半秒钟内对约5000万个单词的词典进行的更正(假设计算一个Levenshtein距离对需要大约10纳秒),这在某些应用中可能可行,但对于某些在线搜索应用可能太慢。
在批量匹配场景示例中,将一个包含2000万个人姓名的新数据集与一个拥有1亿个人姓名的现有数据集进行匹配(说明拼写错误),总共需要进行二的千之五次方次计算。即使有100个处理器并行工作(假设每个Levenshtein计算为10纳秒),该过程也可能需要55个小时,这太慢了。因此需要一种更有效和更快的模糊匹配处理,尤其是针对大型数据集。
发明内容
上述需求中的一些或全部可以通过所公开技术的某些实施方式来解决。某些实施方式可以包括使用应用于数据集记录的字段的删除邻域进行模糊匹配的系统和方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于律商联讯风险解决方案公司,未经律商联讯风险解决方案公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110550209.5/2.html,转载请声明来源钻瓜专利网。