[发明专利]数据质量校验方法、装置、存储介质及电子设备在审
申请号: | 201810475673.0 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108647358A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 李春毅 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅宁 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 校验规则 数据表结构 属性信息 存储介质 电子设备 校验数据 质量校验 字段添加 校验规则库 数据校验 校验 自适应 预设 字段 | ||
本公开涉及一种数据质量校验方法、装置、存储介质及电子设备能够自适应地给数据表结构的各个字段添加校验规则,提升数据校验的效率。所述方法包括:确定待校验数据的数据表结构包括的各个字段的属性信息;根据所述属性信息及预设校验规则库中的属性信息与校验规则之间的对应关系,分别为所述数据表结构包括的每个字段添加校验规则;根据添加的校验规则,对所述待校验数据进行校验。
技术领域
本公开涉及计算机技术领域,具体地,涉及一种数据质量校验方法、装置、存储介质及电子设备。
背景技术
信息技术的飞速发展,催生了大数据时代的到来,在各行各业的领域中,伴随着大数据而来的一个重大问题就是数据质量的问题,比如,数据可能存在不一致、不正确、不完全,等等质量问题。因此,数据质量的校验工作具有重要的意义。
目前,可以设置校验规则来对数据质量进行校验,在校验数据质量的时候,质检人员会分别给数据表结构的每个字段添加校验规则,例如,某个字段对应的数据为身份证号,那么就给该字段添加用来校验身份证号的规则(比如包括数字类校验规则、字母类校验规则、位数类校验规则,等等),然后利用添加的规则对数据进行质量检测。
可见,由质检人员添加校验规则的方式需要人工参与,效率较为低下,且对于数据表结构多的情况,操作起来更是繁琐与不便。
发明内容
本公开的目的是提供一种数据质量校验方法、装置、存储介质及电子设备,能够自适应地给数据表结构的各个字段添加校验规则,提升数据校验的效率。
根据本公开实施例的第一方面,提供一种数据质量校验方法,包括:
确定待校验数据的数据表结构包括的各个字段的属性信息;
根据所述属性信息及预设校验规则库中的属性信息与校验规则之间的对应关系,分别为所述数据表结构包括的每个字段添加校验规则;
根据添加的校验规则,对所述待校验数据进行校验。
可选的,在根据添加的校验规则,对所述待校验数据进行校验之前,还包括:
取所述待校验数据中预设数量的数据,按照所述添加的校验规则进行预校验;
根据所述预校验的结果,对所述添加的校验规则进行调整;
根据添加的校验规则,对所述待校验数据进行校验,包括:
根据调整后的校验规则,对所述待校验数据进行校验。
可选的,根据所述预校验的结果,对所述添加的校验规则进行调整,包括:
保留校验通过率达到预设比例的校验规则;
删除校验通过率未达到所述预设比例的校验规则。
可选的,所述方法还包括:
获取对所述数据表结构包括的字段增加校验规则的操作;
将增加的校验规则与对应字段的属性信息之间的对应关系添加到预备规则库中,并令该对应关系使用次数的计数加一;
其中,针对所述预备规则库中的对应关系,将使用次数达到预设次数的对应关系添加到所述预设校验规则库中。
可选的,所述属性信息包括字段名称和字段类型中的至少一者。
根据本公开实施例的第二方面,提供一种数据质量校验装置,包括:
确定模块,用于确定待校验数据的数据表结构包括的各个字段的属性信息;
规则添加模块,用于根据所述属性信息及预设校验规则库中的属性信息与校验规则之间的对应关系,分别为所述数据表结构包括的每个字段添加校验规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810475673.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据查询的方法及装置
- 下一篇:信息推送方法、装置、计算机设备及存储介质