[发明专利]一种数据血缘构建、追溯方法、装置及设备有效
| 申请号: | 202110534157.2 | 申请日: | 2021-05-17 |
| 公开(公告)号: | CN113138990B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 王中伟;陈屹;戴清良;李建伟;孙永良;陈维强;孙希展;李浩;王亚明 | 申请(专利权)人: | 青岛海信网络科技股份有限公司;青岛国创智慧云脑科技有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F18/25 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 杜晶 |
| 地址: | 266071 山东省青岛市崂*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 血缘 构建 追溯 方法 装置 设备 | ||
本申请实施例提供了一种数据血缘构建、追溯方法、装置及设备,用以解决现有技术中在进行血缘追溯时,无法准确地确定数据来源的问题。本申请实施例通过建立血缘表确定数据的来源,在建立血缘表时,若接收到对源表中数据的处理操作,则获取该处理操作后该数据所在的目标表的标识以及目标行的标识,并且构建包含该数据所在的目标表的标识、目标行的标识以及源表中该数据的来源的标识的血缘表,由于血缘表中包括处理后的数据所在的目标表的标识以及目标行的标识,因此在构建好的血缘表中可以进行数据查询,并且由于血缘表中包含数据的来源的标识,因此可以确定该数据的来源的标识,从而根据该标识准确地确定数据的来源。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据血缘构建、追溯方法、装置及设备。
背景技术
随着大数据技术的发展,各行业对于大数据的应用需求越来越迫切,从而对数据处理的过程提出了更高的要求,数据经过多轮处理和转移才能得到质量高、规范性好和有应用价值的数据。多轮数据处理过程中,如果出现数据质量问题,通常需要追溯到数据来源进行数据纠正。为了追溯到数据的来源,这就需要数据血缘的支撑,通过数据血缘来确定数据是按照怎样的流程一步一步被处理。数据的粒度包括库级、表级、行级、字段级,追溯的粒度越细,价值越大。
城市级大数据的特点是数据种类多、数据量大、数据存储类型多,需要经过规范化的数据抽取、治理、融合的过程,才能形成质量高的可用数据。为了明确每一个数据的处理过程,展现每一个数据的来源和对后续数据的影响,在发生数据质量问题时,能快速定位数据来源,进行数据整改,同时可以评估对后面数据的影响程度,需要一种追溯数据血缘的方法,通过对数据血缘进行追溯,确定数据的来源。其中,追溯数据血缘指的是已知处理操作后的数据在形成的目标表中的位置,确定该数据在处理操作前的来源。
现有追溯数据血缘的方法包括:
(1)基于数据处理过程中产生的sql语句或代码解析逻辑,通过接收这些sql语句或代码解析逻辑,解析出前后数据之间的来源关系,从而确定血缘关系。然而这种方式对代码解析逻辑的规范性要求极高,对于超出规范的复杂代码解析逻辑容易造成误解析,而且需要对所有定期运行的数据处理过程都进行跟踪分析,才可以获取到这些数据处理过程中产生的sql语句或代码解析逻辑,因此计算成本高。
(2)基于数据单元之间的主外键关系和数据特征主动确定数据的血缘,发现关联关系。这种方式需要分析全量数据,效率低,只适用于老旧数据分析场景。
(3)主动记录源表和目标表的对应关系,记录数据是从哪个源表迁移到另外的哪个目标表中。这种记录方式粒度较粗,对于细粒度要求追溯行级数据血缘无法实现,实用性有欠缺。
发明内容
本申请实施例提供了一种数据血缘构建、血缘追溯方法、装置、设备及介质,用以解决现有技术中在进行血缘追溯时,无法准确地确定数据来源的问题。
第一方面,本申请实施例提供了一种数据血缘构建方法,所述方法包括:
接收对源表中数据的处理操作;
获取所述处理操作后该数据所在的目标表的第一标识以及目标行的第二标识,记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表。
第二方面,本申请实施例还提供了一种血缘追溯方法,所述方法包括:
接收追溯请求,其中,所述追溯请求中携带有所要追溯的目标信息,以及记载有数据的来源的血缘表;
在所述血缘表中,查询所述目标信息对应的来源。
第三方面,本申请实施例还提供了一种数据血缘构建装置,所述装置包括:
第一接收模块,用于接收对源表中数据的处理操作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛海信网络科技股份有限公司;青岛国创智慧云脑科技有限公司,未经青岛海信网络科技股份有限公司;青岛国创智慧云脑科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110534157.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





