[发明专利]一种数据管理方法、装置、设备及介质有效

申请号：	201911114575.5	申请日：	2019-11-14
公开（公告）号：	CN111008192B	公开（公告）日：	2023-06-02
发明（设计）人：	杨君	申请（专利权）人：	泰康保险集团股份有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/25;G06F16/23;G06F16/28
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	朱琳爱义
地址：	100031 北京市西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据管理方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明关于一种数据管理方法、装置、设备及介质，用以提升数据血缘关系数据库中的数据质量。所述数据管理方法，包括：统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；确定使用所述目标字段的字段值的任务列表，统计所述任务列表中的任务数量和最短任务时限；基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限，确定所述目标字段的质量评分；在确定所述目标字段的质量评分小于预设评分阈值时，将所述目标字段移出所述分布式数据血缘关系数据库。

技术领域

本发明涉及信息技术领域，尤其涉及一种数据管理方法、装置、设备及介质。

背景技术

随着大数据时代的到来，企业生产经营相关的数据规模日益膨胀，运用数据仓库管理业务数据也日趋流行，相关技术逐渐成熟复杂。数据血缘描述的是数据产生来源的路径，是指在完成某项数据调用业务的过程中，涉及到的数据进入不同的数据库系统或者文件等存储设备，于是这些存储下的数据之间就具有数据血缘关系。

目前，企业数据血缘关系数据库中，存储有大量由萃取、转置、加载(extracttransform load，ETL)操作，衍生出大量数据表，如果管理缺失或维护不及时，都会造成数据关系不准确，难以提升数据血缘关系数据库中的数据质量或数据价值。

发明内容

本发明提供一种数据管理方法、装置、设备及介质，用以提升数据血缘关系数据库中的数据质量。

第一方面，本发明实施例提供一种数据管理方法，应用于分布式数据血缘关系数据库，包括：

统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；

确定使用目标字段的字段值的任务列表，统计任务列表中的任务数量和最短任务时限；

基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限，确定目标字段的质量评分；

在确定目标字段的质量评分小于预设评分阈值时，将目标字段移出分布式数据血缘关系数据库。