[发明专利]一种基于多数据版本的混合数据清洗方法有效
申请号: | 201811628044.3 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109634949B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 高云君;陈刚;陈纯;葛丛丛 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多数据版本的混合数据清洗方法。本发明利用马尔科夫逻辑网络概率图模型和最小化修复原则,将定性技术与定量技术结合到本发明中,设计高效的数据清洗方法,对错误的结构化数据进行检测和修正,保证清洗结果既能够对违反规则约束的脏数据进行清洗且满足对数据集的改动代价最小,又能使其符合统计学特性。本发明先根据马尔科夫逻辑索引技术将整个数据集划分为块和组,然后执行两阶段的数据清洗。第一阶段通过引入可信度分数的评价标准,对每个组内的数据进行清洗以得到多版本的数据清洗结果;第二阶段通过引入融合分数的评价标准,对前置阶段产生的多版本结果进行融合,从而生成最终统一的清洗结果。 | ||
搜索关键词: | 一种 基于 多数 版本 混合 数据 清洗 方法 | ||
【主权项】:
1.一种基于多数据版本的混合数据清洗方法,其特征在于,该方法的步骤如下:(1)获取带有脏数据集和相关的完整性约束规则(ICs);(2)将不同类型的完整性约束规则转化为马尔科夫逻辑网络标准化规则,并用脏数据集中各元组包含的常量将转化后的标准化规则实例化,每个实例化规则被称为数据片;(3)对脏数据集建立马尔科夫逻辑索引结构,先将脏数据集根据规则划分为不同的数据块,每个规则对应一个数据块,每个数据块中的最小单位为数据片,而后再将每个数据块再次划分为不同的数据组;(4)在步骤(3)的基础上,执行第一阶段的清洗,引入可信度分数的评价标准,通过对每个数据组进行独立清洗来得到多个初步清洗结果的数据版本;(5)执行第二阶段的清洗,引入融合分数的评价标准,对第一阶段产生的多个初步清洗结果的数据版本进行融合,消除多版本间的冲突问题,从而生成最终统一的清洗结果;(6)标记脏数据集中存在的重复条目,将经过上述两阶段清洗后仍存在的重复数据删除;(7)输出数据清洗后的数据集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811628044.3/,转载请声明来源钻瓜专利网。