[发明专利]大数据离线数据质量检查方法及装置在审
申请号: | 202010596321.8 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111897806A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 赵旭晖;张侦 | 申请(专利权)人: | 苏宁金融科技(南京)有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/242;G06F16/28 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 顾友 |
地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 离线 质量 检查 方法 装置 | ||
本发明公开一种大数据离线数据质量检查方法及装置,涉及大数据技术领域,对运行在Hive数据仓库上面的数据进行质量检查,推动数据质量的提升。该方法包括:基于数据质量检查系统中预设的检查规则配置检查语句;将检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行检查语句并从数据仓库中获取检查结果;数据质量检查系统同步检测结果,同时向用户可视化展示。该装置应用有上述方案所述的方法。
技术领域
本发明涉及大数据技术领域,尤其涉及一种大数据离线数据质量检查方法及装置。
背景技术
为了保证数据仓库中数据的正确性和完整性,确保数据在抽取、传输、整合、加载、分析等各个环节不失真及准确表达,并为逐步修正和改善各业务系统中的数据质量、加强业务操作规范化管理等提供依据,数据质量检查是数据仓库建设中必不可少的重要组成部分。缺乏数据质量检查将造成用户对数据不认可、对数据缺少信任、增加构建数据仓库的难度等后果。
在数据仓库建设过程中,数据质量检查需要从源数据分析开始,自始至终全程贯彻落实,并要求得到数据仓库的全体开发人员、管理人员及相关业务人员的积极参与,使各方对数据质量有一个合理的预期和客观的评价,提高数据仓库的使用率和可信度,更好地为决策分析提供服务。
发明内容
本发明的目的在于提供一种大数据离线数据质量检查方法及装置,对运行在Hive数据仓库上面的数据进行质量检查,推动数据质量的提升。
为了实现上述目的,本发明的第一方面提供一种大数据离线数据质量检查方法,包括:
基于数据质量检查系统中预设的检查规则配置检查语句;
将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;
数据质量检查系统同步所述检测结果,同时向用户可视化展示。
优选地,数据质量检查系统中预设的检查规则包括:
数据及时性检查规则、字段非空检查规则、字段值域检查规则、字段唯一性检查规则、字段数据长度检查规则、字段特定值占比检查规则、数据量同比检查规则、数据量环比检查规则、记录数一致性检查规则、数据子集检查规则中的一种或多种。
较佳地,基于数据质量检查系统中预设的检查规则配置检查语句的方法包括:
根据检测需求在数据质量检查系统中选择对应的检查规则,并配置检测参数;
基于所选的检查规则和配置的检测参数,自动生成SQL检查语句。
进一步地,在步骤将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果之前还进行以下配置参数设置:
通过数据质量检查系统中的工作流配置模块,设置检查语句在大数据平台上的定时执行时间;
通过数据质量检查系统中的预定义参数配置模块,对检查语句中的检测参数做定期更新;
通过数据质量检查系统中的源系统配置模块,设置数据仓库中待查数据的归属系统并关联对应责任人;
通过数据质量检查系统中的告警原因配置模块,预设多种产生数据质量问题原因的分类。
优选地,将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果的方法包括:
通过大数据平台将检查语句和配置参数同步到配置表中,由大数据平台的程序脚本定时执行相应的检查语句对数据仓库的数据执行筛检;
利用大数据平台把检查结果中的合格数据记录到结果表中,把检查结果中的异常数据记录到异常表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁金融科技(南京)有限公司,未经苏宁金融科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010596321.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置