[发明专利]数据处理方法及装置在审
申请号: | 201711395391.1 | 申请日: | 2017-12-21 |
公开(公告)号: | CN108062399A | 公开(公告)日: | 2018-05-22 |
发明(设计)人: | 陈玉强;黄哲 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 逯恒 |
地址: | 450000 河南省郑州市郑州高新*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本发明实施例涉及大数据技术领域,提供一种数据处理方法及装置,首先,建立源数据库对应的第一指纹集和目标数据库对应的第二指纹集,该第一指纹集包括源数据库中每条源数据的源数据指纹,该第二指纹集包括目标数据库中每条目标数据的目标数据指纹,同时,源数据指纹包括源数据哈希值,目标数据指纹包括目标数据哈希值;然后,获取待更新的数据对应的更新指纹集,该更新指纹集包括第一指纹集中与目标数据指纹不同的源数据指纹、以及第二指纹集中与源数据指纹不同的目标数据指纹。与现有技术相比,本发明实施例可以在不改动源数据库的情况下,实现大数据场景下的数据增量抽取。
技术领域
本发明涉及大数据技术领域,具体而言,涉及一种数据处理方法及装置。
背景技术
大数据项目中,通常第一步要进行的事情是数据集成,即将待处理数据待处理数据从数据源抽取到数据中心中,才能利用大规模的服务器集群完成海量数据的处理。数据源是各种业务系统的数据库,由于业务系统是连续运行的,因此数据源中的数据也是持续增加、更新和删除的。数据抽取工作中为了提高海量数据的抽取和存储效率,应当每次只抽取变化的数据,故数据集成任务需要判断出增加、更新、删除的数据,并将增加的数据抽取到数据中心中或者对应的进行更新和删除。目前常用的方法是在源数据中设立更新时间戳字段、或者通过数据源系统日志等机制记录源数据的变化,这两种方式均需要对数据源进行改动,在实际项目中较难实现。
发明内容
本发明实施例的目的在于提供一种数据处理方法及装置,用以在不改动源数据库的情况下,实现大数据场景下的数据增量抽取。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种数据处理方法,所述方法包括:建立源数据库对应的第一指纹集和目标数据库对应的第二指纹集,其中,所述第一指纹集包括源数据库中每条源数据的源数据指纹,所述第二指纹集包括目标数据库中每条目标数据的目标数据指纹,所述源数据指纹包括源数据哈希值,所述目标数据指纹包括目标数据哈希值;获取待更新的数据对应的更新指纹集,其中,所述更新指纹集包括:第一指纹集中与目标数据指纹不同的源数据指纹,以及第二指纹集中与源数据指纹不同的目标数据指纹。
第二方面,本发明实施例还提供了一种数据处理装置,所述装置包括指纹集建立模块和更新指纹集获取模块。其中,指纹集建立模块用于建立源数据库对应的第一指纹集和目标数据库对应的第二指纹集,其中,所述第一指纹集包括源数据库中每条源数据的源数据指纹,所述第二指纹集包括目标数据库中每条目标数据的目标数据指纹,所述源数据指纹包括源数据哈希值,所述目标数据指纹包括目标数据哈希值;更新指纹集获取模块用于获取待更新的数据对应的更新指纹集,其中,所述更新指纹集包括:第一指纹集中与目标数据指纹不同的源数据指纹,以及第二指纹集中与源数据指纹不同的目标数据指纹。
相对现有技术,本发明实施例提供的一种数据处理方法及装置,首先,建立源数据库对应的第一指纹集和目标数据库对应的第二指纹集,该第一指纹集包括源数据库中每条源数据的源数据指纹,该第二指纹集包括目标数据库中每条目标数据的目标数据指纹,同时,源数据指纹包括源数据哈希值,目标数据指纹包括目标数据哈希值;然后,获取待更新的数据对应的更新指纹集,该更新指纹集包括第一指纹集中与目标数据指纹不同的源数据指纹、以及第二指纹集中与源数据指纹不同的目标数据指纹。与现有技术相比,本发明实施例可以在不改动源数据库的情况下,实现大数据场景下的数据增量抽取。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711395391.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大容量存储器电路的3D封装结构
- 下一篇:一种嵌缝材料及其制备方法