[发明专利]数据查重方法和数据查重装置在审
| 申请号: | 201910053375.7 | 申请日: | 2019-01-21 |
| 公开(公告)号: | CN111459931A | 公开(公告)日: | 2020-07-28 |
| 发明(设计)人: | 李丽 | 申请(专利权)人: | 中车信息技术有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455 |
| 代理公司: | 北京众泽信达知识产权代理事务所(普通合伙) 11701 | 代理人: | 王晓红 |
| 地址: | 100084 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 方法 装置 | ||
本发明公开了一种数据查重方法和数据查重装置。该数据查重方法应用于包括源数据库、客户端、缓存、结果存储数据库的系统,所述方法包括:在第一时刻,获取针对待查重数据的查重请求,所述待查重数据具有唯一标识;针对所述待查重数据,判断所述结果存储数据库中是否存在对应的唯一标识;当判断所述唯一标识存在时,获取该唯一标识对应的查重时刻;获取查重时刻到第一时刻之间的源数据库中的变化数据,与所述待查重数据进行查重比对;将查重比对结果存储至所述结果存储数据库中。本发明能够提高数据查重效率,既能保证查重准确性高,又能同时适用于首次查重和后续多次再查重,即能够保证在首次查重和业务流程过中的多次再查重提高效率。
技术领域
本发明涉及存储领域,尤其涉及一种数据查重方法和装置。
背景技术
企业的主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、产品、物料等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。
由于数据的多源性、使得企业的数据在不同系统中重叠现象日益严重,同一数据在不同系统中的标识和描述也不统一;即使在同一系统中,随着数据规模的不断扩大,也存在同一数据被维护成不同实例的现象,从而造成企业数据冗余,数据准确性不高,业务差错率上升,以至于影响企业的管理及战略决策。
因此,如何提高数据的质量就成了很关键的问题。业界一般使用数据清洗的方法提高数据质量。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
数据清洗又可以分为单数据源清洗(Single Resource)和多数据源清洗(Multiple Resource)问题。对于单数据问题,数据质量主要依赖于其受模式和完整性约束的规范程度。而当为多数据源时,数据清洗问题会更加复杂。可能的情况是,尽管单个数据源可能是一致的,但是当数据集成在一起时,他们的某些部分缺失重叠的或是矛盾的。例如针对某个实体(例如企业需要的用品等)有两个数据来源A和B,A包括数据X(a1,a2,a3),其中a1的属性为购入时间、a2的属性为重量、a3的属性为材质;B包括数据X(a1,a2,b3,b4);其中a1的属性为购入时间、a2的属性为重量、b3的属性为材质、b4的属性为归属部门。由此可见,两个数据来源可能出现的问题至少包括:其中一个数据来源所包括的属性多于另一数据来源(例如B包括b4,而A未包括这一属性)两个数据来源针对同一属性的属性值不同(例如b3和a3为同一属性,但是值不同)。
因此,数据清洗比较典型的方法主要包括缺失值处理、噪声数据处理、数据冲突、数据重复,归并与切割、聚类等方法,但通常存在只能根据特定的实例进行选择,不能自动识别一个数据实例和另一数据实例是否相同。
本领域提出了基于编辑距离的数据清洗方法研究。例如万方数据库中“TP393.09F719.2基于编辑距离和条件函数依赖的酒店数据清洗方法研究”所述的方法,编辑距离算法提高了字符串重复的识别度,但是编辑距离算法一般计算时间都比较长,比较耗时。在初始比对时,尤其数据集是比较庞大时,对于大型集团上百万的数据记录如何提高查重速度该文缺少处理方法。而文中所述的递增匹配算法主要是指新要加入的数据集与原有数据集进行比对,因数据管理流程中一般新的数据在进入系统时会涉及各方管理人员的审核,在审核中的每一步也要对数据做查重,此时如果每个环节都对该条记录与原有集合做查重比对,也会浪费大量的系统时间。
发明内容
鉴于上述问题,本发明一实施例提出一种数据查重方法和数据查重装置,以解决现有技术存在的问题。
本发明的目的之一在于,提出一种提高数据查重效率的数据查重方法和装置,既能保证查重准确性高,又能保证在首次查重和业务流程过中的多次再查重提高效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中车信息技术有限公司,未经中车信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910053375.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





