[发明专利]一种基于数据质量的数据治理系统有效

专利信息
申请号: 201710962459.3 申请日: 2017-10-17
公开(公告)号: CN107748775A 公开(公告)日: 2018-03-02
发明(设计)人: 杨琳;张绍华;刘丰源;高洪美;戴炳荣;陆雯珺;王凌 申请(专利权)人: 上海计算机软件技术开发中心
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海伯瑞杰知识产权代理有限公司31227 代理人: 孟旭彤
地址: 201112 上海市闵*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 质量 治理 系统
【说明书】:

技术领域

本发明属于数据治理技术领域,特别涉及一种基于数据质量的数据治理系统。

背景技术

公开号为CN102012935A的专利文件,公开了“一种通过Excel对系统之间数据治理的方法,……通过Excel对系统之间数据治理的方法,以Excel插件的方式提供一个自动化的转换过程,来解决用户在系统之间数据的转换异常困难的问题,具体方法涉及访问Excel表、源系统以及其中待治理的源数据、目标系统以及符合其要求的目标数据。它包括五个流程:导出数据、载入模板、数据转换、数据校验、格式化”。

然而在数据治理领域,对于如何评价数据治理的质量,如何通过评价数据质量来提升数据治理的质量一直没有一个完整的方案。

发明内容

本发明提供一种基于数据质量的数据治理系统,以提高数据治理的质量效率。

一种基于数据质量的数据治理系统,该数据治理系统的数据治理执行以下步骤:

A1,进行元数据的采集,通过配置底层数据源和悬挂点,形成指定系统的元数据库;

A2,对元数据库中的数据进行信息孤岛的筛查,即通过将元数据库采集到的主外键关联关系进行提取,将没有通过主外键关联形成数据流连通的信息孤岛数据在列表中展示,提示用户进行修改和完善,同时根据问题数据数量比例进行打分;

A3,对元数据中字段名、字段类型、字段长度进行和数据标准词典的比对,将任意一项不符的元数据提取出来在前端UI界面展现,实现数据标准化情况评估,同时根据问题数据比例进行打分;

A4,对数据内容进行评估:

首先,对评估指标进行定制,包括完整性、一致性、精确性、唯一性、有效性、及时性和安全性指标;

系统提供检核指标制定模板,选择对应的检核目标,配置相应的检核指标,同时配置相应的指标权重,形成检核模板之中完整的一条检核指标,多个检核指标组合成一套检核模板,应用于专属的一个待检核系统中;

最后,校验元数据中字段对应的数值,形成评估结果报表,报表包括评估单项指标打分结果与其权重乘积求和的分数、情况说明,具体失分项以及各单个指标评估结果,

最终构建数据质量问题知识库,进行历史记录管理,方便后期查阅。

本发明在数据治理过程中对数据质量进行评估和管理的系统,该系统包括:UI前端界面,中端程序和后台数据库。通过对数据结构评估和数据内容评估,在结构评估中进行信息孤岛和数据标准化评估,根据问题数据比例进行打分,在数据内容评估中配置检测目标、检核指标和指标权重,实现对数据各项指标的评估打分。最后生成数据质量问题知识库。

本发明提出了利用主外键关联排除信息孤岛的方法,和利用数据标准化评估更加合理的评价数据质量,以及通过数据质量性质评估,提高数据的一致性和规范性,提高数据共享可用性和操作效率,进一步帮助企业提升数据治理能力。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1是本发明实施例中的数据治理系统流程示意图。

具体实施方式

如图1所示,系统进行元数据的采集,通过配置底层数据源和悬挂点,形成指定系统的元数据库。其次对元数据库中的数据进行信息孤岛的筛查,即通过将元数据库采集到的主外键关联关系进行提取,在前端页面将没有通过主外键关联形成数据流连通的信息孤岛数据在列表中展示,提示用户进行修改和完善,同时根据问题数据数量比例进行打分。

接下来对元数据中字段名、字段类型、字段长度等进行和数据标准词典的比对,将任意一项不符的元数据提取出来再前端UI界面展现,实现数据标准化情况评估,同时根据问题数据比例进行打分。

接着是对数据内容进行评估,首先要对评估指标进行定制,包括完整性、一致性、精确性、唯一性、有效性、及时性和安全性等几大指标,本系统提供检核指标制定模板,选择对应的检核目标,配置相应的检核指标,同时配置相应的指标权重,形成检核模板之中完整的一条检核指标,多个检核指标组合成一套检核模板,应用于专属的一个待检核系统中。最后应用该检核系统检核元数据,形成一个评估结果简要报表,包括评估单项指标打分结果与其权重乘积求和的分数,总体情况说明,可以展开详情页,查看具体失分项以及各单个指标评估结果。

最终基于上述三个步骤结果构建数据质量问题知识库,进行历史记录管理,方便后期查阅。

值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海计算机软件技术开发中心,未经上海计算机软件技术开发中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710962459.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top