[发明专利]一种基于蕴涵规则的数据质量自动检测方法无效

专利信息
申请号: 201110218907.1 申请日: 2011-08-02
公开(公告)号: CN102411600A 公开(公告)日: 2012-04-11
发明(设计)人: 刘波;许阳阳;赖伟 申请(专利权)人: 暨南大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 杨晓松;陈燕娴
地址: 510632 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 蕴涵 规则 数据 质量 自动检测 方法
【说明书】:

技术领域

发明涉及计算机数据处理领域,特别涉及一种基于蕴涵规则的数据质量自动检测方法。

背景技术

在信息系统建设过程中,由于数据获取、数据输入、数据传递、数据装载、数据集成与维护等环节出现异常或错误现象,难免产生错误、不一致、重复等数据质量问题,这些问题已成为数据集成和资源整合与应用的主要障碍。

目前,政府部门、企业等单位的信息系统及数据中心绝大部分以关系数据库管理为核心,从中快速、准确地识别出错误、不一致、重复等异常数据需要高效可行的技术与方法支持,检测的对象涉及数据表的记录或属性级别。为了减少人工核查的工作强度、提高检测的准确度,数据质量检测工具需求越来越大,其可以应用到任何数据库应用部门,包括政府、企业、事业单位等,尤其像电信、银行、证券、保险等数据量大的服务行业。从用途方面考虑,数据质量检测方法适用于业务数据处理与统计、数据归档、数据仓库维护、数据清洗、数据集成或整合等领域。

在当今信息化时代,数据质量如同企业产品质量一样重要,是企业生存和社会服务体系的命脉。统计表明,一般的应用系统的数据库中存在将近10%的错误,这些脏数据造成一些国家每年数亿美元的损失。为此,未来几年在政府、事业、企业等单位的信息化建设过程中引入数据质量管理平台、建立各个层次上数据质量检测系统将成为必然趋势。错误、不一致、重复等异常数据检测方法及相应的检测工具具有很好的产业前景。

目前检测关系数据库中异常数据(即错误、不一致、重复等数据)的方式主要有五种:

(1)手工方式,用人工来检测所有异常数据。

(2)专门编写应用程序,检测特定的关系数据库或文件中异常数据。

(3)采用数据质量规则自动检测的方法。相关研究关注基于某一类数据规则的检测方法,如:文献[1](Wenfei Fan,etc.Conditional functional dependencies for capturing data inconsistencies.ACM Transactions on Database Systems,v 33,n 2,June 1,2008.)提出基于CFD(Conditional Funtional Dependencies,条件函数依赖)约束的检测方法,文献[2](Lukasz Ciszak,etc.Application of Clustering and Association Methods in Data Cleaning.Proceedings of the International Multiconference on Computer Science and Information Technology,2008:97-103.)提出基于聚类和关联规则的方法。

(4)运用数据清洗工具及数据仓库ETL工具,提供交互式的系统框架,制定数据清洗或解决冲突流程,通过编译和调试每个检测与变换过程,产生数据清洗或集成执行计划。

(5)通过数据库管理系统定义数据完整性约束,如商用数据库管理系统Oracle、SQL Sever等,采用标准的SQL语言把各种完整性约束作为数据库模式定义的一部分,在输入、删除或修改数据时检测违背约束的异常数据。这些数据库管理系统可对三种不同类型的完整性约束进行设置及检测,即:实体完整性、参照完整性约束与外部码、用户自定义完整性约束(包括非空约束、对属性的CHECK约束、对元组的CHECK约束、触发器等实现用户的各种完整性要求)。

上述方法大多只能解决特定类型数据质量问题,通用性较差,并且针对多种约束或规则需要多次扫描检测关系中的所有元组,检测效率较低。因此,需要提供一种通用性高、效率高的数据质量自动检测方法。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于蕴涵规则的数据质量自动检测方法,该方法可检测多种类型的数据质量问题,通用性强,且检测效率高。

本发明的目的通过以下的技术方案实现:一种基于蕴涵规则的数据质量自动检测方法,包括以下步骤:

(1)选择检测对象,检测对象具体是指一个或多个关系表;

(2)判断是否需要新定义规则或修改原有规则,是则新定义或修改检测对象及其之间的蕴涵规则,并将规则存储到规则库中,然后进入步骤(3);否则直接进入步骤(3);

(3)从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则,存入清空的规则临时表中,然后计算检测关系中违背规则临时表中规则的元组,并将这些元组放入一个集合中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110218907.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top