[发明专利]一种基于蕴涵规则的数据质量自动检测方法无效
申请号: | 201110218907.1 | 申请日: | 2011-08-02 |
公开(公告)号: | CN102411600A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 刘波;许阳阳;赖伟 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 杨晓松;陈燕娴 |
地址: | 510632 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 蕴涵 规则 数据 质量 自动检测 方法 | ||
技术领域
本发明涉及计算机数据处理领域,特别涉及一种基于蕴涵规则的数据质量自动检测方法。
背景技术
在信息系统建设过程中,由于数据获取、数据输入、数据传递、数据装载、数据集成与维护等环节出现异常或错误现象,难免产生错误、不一致、重复等数据质量问题,这些问题已成为数据集成和资源整合与应用的主要障碍。
目前,政府部门、企业等单位的信息系统及数据中心绝大部分以关系数据库管理为核心,从中快速、准确地识别出错误、不一致、重复等异常数据需要高效可行的技术与方法支持,检测的对象涉及数据表的记录或属性级别。为了减少人工核查的工作强度、提高检测的准确度,数据质量检测工具需求越来越大,其可以应用到任何数据库应用部门,包括政府、企业、事业单位等,尤其像电信、银行、证券、保险等数据量大的服务行业。从用途方面考虑,数据质量检测方法适用于业务数据处理与统计、数据归档、数据仓库维护、数据清洗、数据集成或整合等领域。
在当今信息化时代,数据质量如同企业产品质量一样重要,是企业生存和社会服务体系的命脉。统计表明,一般的应用系统的数据库中存在将近10%的错误,这些脏数据造成一些国家每年数亿美元的损失。为此,未来几年在政府、事业、企业等单位的信息化建设过程中引入数据质量管理平台、建立各个层次上数据质量检测系统将成为必然趋势。错误、不一致、重复等异常数据检测方法及相应的检测工具具有很好的产业前景。
目前检测关系数据库中异常数据(即错误、不一致、重复等数据)的方式主要有五种:
(1)手工方式,用人工来检测所有异常数据。
(2)专门编写应用程序,检测特定的关系数据库或文件中异常数据。
(3)采用数据质量规则自动检测的方法。相关研究关注基于某一类数据规则的检测方法,如:文献[1](Wenfei Fan,etc.Conditional functional dependencies for capturing data inconsistencies.ACM Transactions on Database Systems,v 33,n 2,June 1,2008.)提出基于CFD(Conditional Funtional Dependencies,条件函数依赖)约束的检测方法,文献[2](Lukasz Ciszak,etc.Application of Clustering and Association Methods in Data Cleaning.Proceedings of the International Multiconference on Computer Science and Information Technology,2008:97-103.)提出基于聚类和关联规则的方法。
(4)运用数据清洗工具及数据仓库ETL工具,提供交互式的系统框架,制定数据清洗或解决冲突流程,通过编译和调试每个检测与变换过程,产生数据清洗或集成执行计划。
(5)通过数据库管理系统定义数据完整性约束,如商用数据库管理系统Oracle、SQL Sever等,采用标准的SQL语言把各种完整性约束作为数据库模式定义的一部分,在输入、删除或修改数据时检测违背约束的异常数据。这些数据库管理系统可对三种不同类型的完整性约束进行设置及检测,即:实体完整性、参照完整性约束与外部码、用户自定义完整性约束(包括非空约束、对属性的CHECK约束、对元组的CHECK约束、触发器等实现用户的各种完整性要求)。
上述方法大多只能解决特定类型数据质量问题,通用性较差,并且针对多种约束或规则需要多次扫描检测关系中的所有元组,检测效率较低。因此,需要提供一种通用性高、效率高的数据质量自动检测方法。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于蕴涵规则的数据质量自动检测方法,该方法可检测多种类型的数据质量问题,通用性强,且检测效率高。
本发明的目的通过以下的技术方案实现:一种基于蕴涵规则的数据质量自动检测方法,包括以下步骤:
(1)选择检测对象,检测对象具体是指一个或多个关系表;
(2)判断是否需要新定义规则或修改原有规则,是则新定义或修改检测对象及其之间的蕴涵规则,并将规则存储到规则库中,然后进入步骤(3);否则直接进入步骤(3);
(3)从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则,存入清空的规则临时表中,然后计算检测关系中违背规则临时表中规则的元组,并将这些元组放入一个集合中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110218907.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于电冰箱外置式LED光合保鲜方法
- 下一篇:一种地栗掺混专用肥料配方
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置