[发明专利]一种数据质量稽核引擎及其稽核方法在审
申请号: | 202110735553.1 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113377758A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 郑丹辉;杨昊天;王程远;孟凡胜;郝亮 | 申请(专利权)人: | 数字郑州科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 吴敏 |
地址: | 450000 河南省郑州市郑东新*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 质量 稽核 引擎 及其 方法 | ||
本发明涉及一种数据质量稽核引擎及其稽核方法,该方法包括获取待稽查数据集的元数据和数据质量标准规范的质量规则项,从质量规则项中提取对应的特征词,元数据包括数据集名称、数据属性名称和数据属性注释;将特征词与元数据中的数据属性名称或者数据属性注释进行匹配,建立质量规则项和元数据中每个属性的关联关系;基于待稽查数据集中的属性和关联关系得到稽核任务;基于稽核任务与质量规则项对应的稽核处理方法,获得待稽查数据集的稽核处理方法,以生成待稽查数据集的稽核脚本;运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。在本发明中,能够解决现有技术中稽核效率较低,配置任务工作繁重的问题。
技术领域
本发明属于数据稽核的技术领域,具体涉及一种数据质量稽核引擎及其稽核方法。
背景技术
随着技术的发展,数字化成为趋势。为提高基层治理的水平,城市开始向数字化转型,数字政府也开始走进人们的生活。其中,作为数字政府新型基础设施建设的城市大脑更是智慧化城市的重要内容。城市大脑的正常运作离不开数据中台。数据中台是城市大脑的数据基座,其为城市大脑行业应用提供标准、干净、全量数据。数据中台中的数据种类繁多、来源广泛、体量巨大,这些数据主要归集于政府各个单位的政务数据。然而归集数据愈多,数据质量问题愈突出。为了提高收集的数据的质量,在从多个数据源收集数据的过程中,需要对收集的数据进行数据质量稽核。
目前的数据质量稽核的方法包括:从归集的各个单位数据集中选择待稽查数据集,获取待稽查数据集的待稽查属性,根据数据质量标准规范,由业务定义明确待稽查属性适用的质量规则,按数据集人工配置产生质量稽查任务,依据稽查任务对待稽查数据集进行稽核处理,产生质量稽核任务对应的稽核脚本程序,执行待稽查数据集的待稽查属性的稽核程序。其中,业务定义明确适用各个待稽查数据集的待稽查属性的质量规则。然而上述方法中,每个待稽查数据集的稽查任务均需人工配置一次,稽核效率比较低,若业务规则调整,涉及一或多个待稽查数据集的稽查任务配置需返工修改,导致配置任务工作繁重。
发明内容
本发明提供了一种数据质量稽核引擎及其稽核方法,用以解决现有技术中稽核效率较低,配置任务工作繁重的问题。
为解决上述技术问题,本发明提供了一种数据质量稽核方法,其包括:1)获取待稽查数据集的元数据和数据质量标准规范的质量规则项,从所述质量规则项中提取对应的特征词,所述元数据包括数据集名称、数据属性名称和数据属性注释;2)将所述特征词与所述元数据中的数据属性名称或者数据属性注释进行匹配,建立质量规则项和所述元数据中每个属性的关联关系;3)基于所述待稽查数据集中的属性和所述关联关系得到稽核任务;4)基于所述稽核任务与质量规则项对应的稽核处理方法,获得所述待稽查数据集的稽核处理方法,以生成所述待稽查数据集的稽核脚本;5)运行所述稽核脚本对所述待稽查数据集进行稽查以获得稽核结果。
上述技术方案的有益效果为:该数据质量稽核方法利用待稽核数据集的元数据和引用的数据质量标准规范的质量规则项的特征词,建立质量规则项与元数据中每个属性的关联关系,以自动化匹配待稽核数据集适用的稽查规则;基于待稽查数据集的属性和关联关系创建稽核任务,以自动生成待稽查数据集的稽核脚本,运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。整个稽核过程自动匹配质量规则、自动生成稽核脚本,避免了人工匹配数据集适用的质量规则导致效率低、准确性差以及过程繁琐的问题,且能够提高了稽核效率。
进一步地,为了提高建立的关联关系的准确性,本发明提供了一种数据质量稽核方法,还包括所述步骤2)中进行匹配所采用的匹配方法是正则表达式算法或JaroDistance字符串相似性度量算法。
进一步地,为了更好地提高稽核效率,本发明提供了一种数据质量稽核方法,还包括所述元数据还包括数据集记录数,若数据集记录数为零,则该待稽查数据集为空数据集,不对该待稽查数据集进行稽查。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数字郑州科技有限公司,未经数字郑州科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110735553.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置