[发明专利]一种数据管理方法、装置、设备及介质有效
| 申请号: | 201911114575.5 | 申请日: | 2019-11-14 |
| 公开(公告)号: | CN111008192B | 公开(公告)日: | 2023-06-02 |
| 发明(设计)人: | 杨君 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/23;G06F16/28 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 朱琳爱义 |
| 地址: | 100031 北京市西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据管理 方法 装置 设备 介质 | ||
本发明关于一种数据管理方法、装置、设备及介质,用以提升数据血缘关系数据库中的数据质量。所述数据管理方法,包括:统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数;确定使用所述目标字段的字段值的任务列表,统计所述任务列表中的任务数量和最短任务时限;基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限,确定所述目标字段的质量评分;在确定所述目标字段的质量评分小于预设评分阈值时,将所述目标字段移出所述分布式数据血缘关系数据库。
技术领域
本发明涉及信息技术领域,尤其涉及一种数据管理方法、装置、设备及介质。
背景技术
随着大数据时代的到来,企业生产经营相关的数据规模日益膨胀,运用数据仓库管理业务数据也日趋流行,相关技术逐渐成熟复杂。数据血缘描述的是数据产生来源的路径,是指在完成某项数据调用业务的过程中,涉及到的数据进入不同的数据库系统或者文件等存储设备,于是这些存储下的数据之间就具有数据血缘关系。
目前,企业数据血缘关系数据库中,存储有大量由萃取、转置、加载(extracttransform load,ETL)操作,衍生出大量数据表,如果管理缺失或维护不及时,都会造成数据关系不准确,难以提升数据血缘关系数据库中的数据质量或数据价值。
发明内容
本发明提供一种数据管理方法、装置、设备及介质,用以提升数据血缘关系数据库中的数据质量。
第一方面,本发明实施例提供一种数据管理方法,应用于分布式数据血缘关系数据库,包括:
统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数;
确定使用目标字段的字段值的任务列表,统计任务列表中的任务数量和最短任务时限;
基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限,确定目标字段的质量评分;
在确定目标字段的质量评分小于预设评分阈值时,将目标字段移出分布式数据血缘关系数据库。
在一种可能的实施方式中,本发明实施例提供的上述数据管理方法,还包括:
分别为历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限设置权重系数;
将历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限中每个与对应的权重系数的乘积之和作为目标字段的质量评分。
在一种可能的实施方式中,本发明实施例提供的上述数据管理方法,还包括:
提取分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录,目标数据血缘关系表为数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个;
根据底层数据源标识对应的目标数据表、历史ETL操作,生成校验数据;
逐条确定校验数据与衍生数据表标识对应的目标衍生数据表中目标字段的字段值的一致性;
计算校验数据与目标衍生数据表中目标字段的字段值一致的数量与校验数据总数量的比值。
在一种可能的实施方式中,本发明实施例提供的上述数据管理方法,还包括:
在确定比值小于预设比例阈值时,删除目标衍生数据表。
在一种可能的实施方式中,本发明实施例提供的上述数据管理方法,还包括:
确定将删除的目标衍生数据表录入分布式数据血缘关系数据库的节点设备;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911114575.5/2.html,转载请声明来源钻瓜专利网。





