[发明专利]一种数据清洗方法、装置及计算机可读存储介质在审

专利信息
申请号: 202010016926.5 申请日: 2020-01-08
公开(公告)号: CN111241079A 公开(公告)日: 2020-06-05
发明(设计)人: 王宏志;丁小欧;苏佳轩 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F16/215 分类号: G06F16/215
代理公司: 北京格允知识产权代理有限公司 11609 代理人: 周娇娇
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 清洗 方法 装置 计算机 可读 存储 介质
【说明书】:

发明涉及一种数据清洗方法、装置及计算机可读存储介质;该方法包括获取结构化数据和时效约束,对所有元组建立时序图,并经传递规约后得到时效子图;基于时序子图计算每条元组的时效值;以时效性‑一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;得到清洗后的数据集。本发明能够对数据集中同时存在的时间戳不可用、不完整属性值、不一致属性值这三种数据质量问题进行有效地识别和修复。

技术领域

本发明涉及数据清洗技术领域,尤其涉及一种数据清洗方法、装置及计算机可读存储介质。

背景技术

数据清洗作为数据预处理环节的重要步骤,在数据仓库、数据质量管理和数据挖掘等领域有广泛应用。通过执行数据清洗,能够有效修复数据中的错误,提高数据质量。

在数据质量管理技术中,时效性、完整性、一致性是评价数据质量的三个重要因素。目前,现有技术通常只针对其中单一的某个因素进行数据清洗,且已有的数据清洗方法往往不考虑数据质量问题的时效性因素,易导致数据清洗方法的可靠性和准确性降低,造成更多的误判和漏判。而结构化数据中,时间标记经常发生时间戳缺失或不可用的情况,导致时效性因素难以被建模利用。同时,由于数据内容的丰富性和复杂性,导致结构化数据中错误类型多,低质量数据产生的缘由复杂,且通常存在多种类型的错误问题,而目前已有的数据清洗方法,通常只能提供一些简单的数据清洗功能,不能检测识别到数据中的复杂质量问题。由于已有的数据清洗方法往往只能在一定限制条件下,针对某种错误进行检测和修复,缺少针对多种数据质量性质的综合性数据清洗策略,数据清洗质量不佳。

发明内容

本发明的目的是针对上述至少一部分不足之处,提供一种基于时效性、完整性、一致性的综合的数据清洗方法,以解决现有技术中难以识别、修复结构化数据中复杂质量问题的缺陷。

为了实现上述目的,本发明提供了一种数据清洗方法,包括如下步骤:

S1、数据预处理:获取待清洗的结构化数据和时效约束,根据时效约束对结构化数据中所有元组建立时序图,并经传递规约后,消除所述时序图上的冲突,得到时效子图;

S2、时效性判定:基于所述时序子图计算每条元组的时效值,根据时效值量化各元组之间的时效顺序;

S3、一致性修复:输入CFD规则作为一致性规则,并从待清洗的结构化数据中提取一致性规则模式,得到一致性规则约束集合;基于各元组的时效值及元组之间的时效顺序,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;

S4、完整性修复:对经过一致性修复后的各个元组,利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;

S5、数据集输出:输出经过完整性修复后的各个元组,得到清洗后的数据集。

优选地,所述数据预处理步骤中,根据时效约束对结构化数据中所有元组建立时序图时,对于结构化数据中的每一个实体,先基于时效约束确定其对应的各条元组作为节点的时效值相对大小,再由任意两节点中时效值较小的节点向时效值较大的节点建立有向边。

优选地,所述数据预处理步骤中,所述时效子图定义为:

对于时效图G=(V,E),其子图Gc=(V,ETR)是时效图G经传递规约后得到的时效子图,当且仅当:

Gc与G拥有相同的传递闭包;

G′c的传递闭包与G的不同;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010016926.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top