[发明专利]一种基于多数据版本的混合数据清洗方法有效

专利信息
申请号: 201811628044.3 申请日: 2018-12-28
公开(公告)号: CN109634949B 公开(公告)日: 2022-04-12
发明(设计)人: 高云君;陈刚;陈纯;葛丛丛 申请(专利权)人: 浙江大学
主分类号: G06F16/215 分类号: G06F16/215
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 邱启旺
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多数 版本 混合 数据 清洗 方法
【说明书】:

发明公开了一种基于多数据版本的混合数据清洗方法。本发明利用马尔科夫逻辑网络概率图模型和最小化修复原则,将定性技术与定量技术结合到本发明中,设计高效的数据清洗方法,对错误的结构化数据进行检测和修正,保证清洗结果既能够对违反规则约束的脏数据进行清洗且满足对数据集的改动代价最小,又能使其符合统计学特性。本发明先根据马尔科夫逻辑索引技术将整个数据集划分为块和组,然后执行两阶段的数据清洗。第一阶段通过引入可信度分数的评价标准,对每个组内的数据进行清洗以得到多版本的数据清洗结果;第二阶段通过引入融合分数的评价标准,对前置阶段产生的多版本结果进行融合,从而生成最终统一的清洗结果。

技术领域

本发明涉及计算机数据库领域中对错误数据的清洗技术,特别是基于多数据版本的混合数据清洗方法。

背景技术

数据清洗的目的在于找到数据集中最有可能是错误数据的内容,并提供一个可靠的更正错误数据的方法。脏数据就是数据集中存在错误的数据。

如今,随着以社交网络、电子商务为代表的新型信息发布方式的不断涌现,以及云计算、物联网计算机技术的兴起,数据正以前所未有的速度不断地增长和累积,而在数据分析中,脏数据的存在不仅会导致错误的决定和不可靠的分析,还会对公司经济造成打击。因此,无论在工业界还是学术界,都产生了对数据清洗的浓厚兴趣。数据清洗是对错误数据进行检测和修复的过程,其目的在于删除其中冗余信息,更正存在的错误信息,保持数据的一致性。

针对数据清洗方法,目前国内外学者已经做出了一些工作。目前主流的方法可以大致分为定性方法和定量方法两类:(1)定性方法主要是清洗违反完整性约束规则的错误数据,其评价标准为最小代价原则,即要求清洗的代价对数据集的改动最小化,缺点在于它不能够清洗不满足最小代价原则的错误数据,尽管它仍然违反完整性约束;(2)定量方法是基于数据概率分布构建合适的模型从而决定清洗策略,其缺点在于此类方法强依赖于训练集,需要提供足够且干净的已知数据作为训练集从而构建可靠的模型,而这对于现在的大数据环境而言已不适用,目前绝大多数定量方法清洗得到的数据表现比定性方法差,并且现有方法运行时间较长。

发明内容

针对上述不足,本发明提供一种基于多数据版本的混合数据清洗方法,本发明的方法是将定性和定量结合的方法,既保证能够对违反ICs的数据执行清洗,又使清洗结果符合统计特性。该方法基于马尔科夫逻辑网络,先根据马尔科夫逻辑索引技术将整个数据集划分为块和组,然后再执行两阶段的数据清洗,其中第一阶段对每个块单独执行数据清洗,得到多版本数据清洗结果;第二阶段,基于多版本的数据结果,消除冲突,得到最终全局统一的清洗结果。马尔科夫逻辑索引技术缩小了脏数据的检测范围,能够高效地执行数据清洗。

为了达到上述目的,本发明所采用技术方案如下:一种基于多数据版本的混合数据清洗方法,该方法的步骤如下:

(1)获取带有脏数据集和相关的完整性约束规则(ICs);

(2)将不同类型的完整性约束规则转化为马尔科夫逻辑网络标准化规则,并用脏数据集中各元组包含的常量将转化后的标准化规则实例化,每个实例化规则被称为数据片;

(3)对脏数据集建立马尔科夫逻辑索引结构,先将脏数据集根据规则划分为不同的数据块,每个规则对应一个数据块,每个数据块中的最小单位为数据片,而后再将每个数据块再次划分为不同的数据组;

(4)在步骤(3)的基础上,执行第一阶段的清洗,引入可信度分数的评价标准,通过对每个数据组进行独立清洗来得到多个初步清洗结果的数据版本;

(5)执行第二阶段的清洗,引入融合分数的评价标准,对第一阶段产生的多个初步清洗结果的数据版本进行融合,消除多版本间的冲突问题,从而生成最终统一的清洗结果;

(6)标记脏数据集中存在的重复条目,将经过上述两阶段清洗后仍存在的重复数据删除;

(7)输出数据清洗后的数据集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811628044.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top