[发明专利]数据清洗方法及装置在审
| 申请号: | 202111165400.4 | 申请日: | 2021-09-30 |
| 公开(公告)号: | CN113868237A | 公开(公告)日: | 2021-12-31 |
| 发明(设计)人: | 林鹏程;崔晓峰 | 申请(专利权)人: | 杭州数梦工场科技有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王剑 |
| 地址: | 310024 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 清洗 方法 装置 | ||
本申请提供一种数据清洗方法及装置,应用于多级数据仓库中任一数据仓库对应的目标清洗节点,所述方法包括:从所述任一数据仓库中确定待清洗的目标数据并创建针对所述目标数据的清洗任务,所述清洗任务包含所述目标数据信息以及清洗规则;确定所述目标数据的来源数据仓库,并根据数据仓库与清洗节点之间的映射关系确定所述来源数据仓库对应的目标清洗子节点;同步所述清洗任务至所述目标清洗子节点,使所述来源数据仓库根据相应的目标清洗子节点下发的清洗任务对所述目标数据进行清洗。
技术领域
本申请涉及数据仓库领域,特别是数据清洗方法及装置。
背景技术
数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误、处理无效值和缺失值等。相关技术中,在多级数据仓库的场景下,不同层级的数据仓库具有自身的清洗节点用以控制本级数据仓库数据清洗过程。不同级别的清洗节点无法联动,导致各级数据仓库使用的清洗规则不一致、不统一。
发明内容
有鉴于此,本申请提供一种数据清洗方法及装置,用以清洗数据。
具体的,本申请通过如下技术方案实现:
根据本申请的第一方面,提出了一种数据清洗方法,应用于多级数据仓库中任一数据仓库对应的目标清洗节点,所述方法包括:
从所述任一数据仓库中确定待清洗的目标数据并创建针对所述目标数据的清洗任务,所述清洗任务包含所述目标数据信息以及清洗规则;
确定所述目标数据的来源数据仓库,并根据数据仓库与清洗节点之间的映射关系确定所述来源数据仓库对应的目标清洗子节点;
同步所述清洗任务至所述目标清洗子节点,使所述来源数据仓库根据相应的目标清洗子节点下发的清洗任务对所述目标数据进行清洗。
根据本申请的第二方面,提出了一种数据清洗装置,应用于多级数据仓库中的任一清洗节点,所述装置包括:
创建单元,从所述任一数据仓库中确定待清洗的目标数据并创建针对所述目标数据的清洗任务,所述清洗任务包含所述目标数据信息以及清洗规则;
确定单元,确定所述目标数据的来源数据仓库,并根据数据仓库与清洗节点之间的映射关系确定所述来源数据仓库对应的目标清洗子节点;
同步单元,同步所述清洗任务至所述目标清洗子节点,使所述来源数据仓库根据相应的目标清洗子节点下发的清洗任务对所述目标数据进行清洗。
根据本申请的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述第一方面的实施例中所述的方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述第一方面的实施例中所述方法的步骤。
由以上本申请提供的技术方案可见,在本申请中,多级数据仓库中任一数据仓库对应的清洗节点可以确定出需要清洗的目标数据的来源数据仓库,进而结合数据仓库与清洗节点之间的映射关系,将清洗任务下发至确定出的来源数据仓库对应的清洗子节点处。由于清洗任务中包含清洗规则,通过本申请的方式,任一数据仓库的清洗规则和向此数据仓库提供数据的来源数据仓库的清洗规则将保持一致,提升了数据清洗的统一性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据本申请一示例性实施例示出的一种多级数据仓库的架构图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司,未经杭州数梦工场科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111165400.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:三专立交桥
- 下一篇:一种风险控制方法、装置及电子设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





