[发明专利]一种基于多数据版本的混合数据清洗方法有效
| 申请号: | 201811628044.3 | 申请日: | 2018-12-28 |
| 公开(公告)号: | CN109634949B | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 高云君;陈刚;陈纯;葛丛丛 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多数 版本 混合 数据 清洗 方法 | ||
1.一种基于多数据版本的混合数据清洗方法,其特征在于,该方法的步骤如下:
(1)获取带有脏数据集和相关的完整性约束规则(ICs);
(2)将不同类型的完整性约束规则转化为马尔科夫逻辑网络标准化规则,并用脏数据集中各元组包含的常量将转化后的标准化规则实例化,每个实例化规则被称为数据片;
(3)对脏数据集建立马尔科夫逻辑索引结构,先将脏数据集根据规则划分为不同的数据块,每个规则对应一个数据块,每个数据块中的最小单位为数据片,而后再将每个数据块再次划分为不同的数据组;
(4)在步骤(3)的基础上,执行第一阶段的清洗,引入可信度分数的评价标准,通过对每个数据组进行独立清洗来得到多个初步清洗结果的数据版本;
(5)执行第二阶段的清洗,引入融合分数的评价标准,对第一阶段产生的多个初步清洗结果的数据版本进行融合,消除多版本间的冲突问题,从而生成最终统一的清洗结果;
(6)标记脏数据集中存在的重复条目,将经过上述两阶段清洗后仍存在的重复数据删除;
(7)输出数据清洗后的数据集。
2.根据权利要求1所述的基于多数据版本的混合数据清洗方法,其特征在于:所述步骤(2)具体为:
(2.1)将输入的不同类型的完整性约束通过合取范式转化规则标准化为马尔科夫逻辑网络规则;
(2.2)将标准化后的规则中的所有变量用数据集的相应常量代替。
3.根据权利要求1所述的基于多数据版本的混合数据清洗方法,其特征在于:所述步骤(3)具体为:
(3.1)根据脏数据集所包含的完整性约束规则将整个脏数据集划分为多个数据块,每个规则对应一个数据块,每个数据块中包含若干个数据片;
(3.2)在每个数据块中,将属性中含有相同关键字的条目分为同一个组;其中关键字为规则的原因项,具有相同原因的数据片被划分为一组。
4.根据权利要求1所述的基于多数据版本的混合数据清洗方法,其特征在于:所述的步骤(4)具体为:
(4.1)处理异常数据:将由于数据错误出现在原因项而导致其对应的数据片被划分到不正确组中的现象称为“异常”,然后将这些错误的数据片重新划分到对应的组中;
(4.2)根据相似度距离度量方法和马尔科夫逻辑网络权重学习方法计算每个组内异常数据的可信度分数(reliability score);
(4.3)独立清洗每个数据组:清洗单位为数据块中的每个组,选择可信度分数最大的数据片γ作为替换的基准,利用这个数据将属于同个数据组中的其它存疑数据进行替换,直到该数据块中的每个数据组都清洗完毕,即完成该数据块的独立清洗;
同理对其它数据块也执行上述清洗;将经过该阶段清洗得到的多个初步清洗结果视为多个数据版本,每个数据块为一个数据版本。
5.根据权利要求1所述的基于多数据版本的混合数据清洗方法,其特征在于:所述的步骤(5)具体为:
(5.1)首先,将发生冲突的位置的所有不同数据版本各自记为基准,然后以每个基准为起始,在除基准所在数据块以外的其他数据块中找到与基准不冲突且具有最大马尔科夫权重的数据片,并将其与基准进行合并;
(5.2)反复执行上述合并操作,直至所有数据块都已被遍历;然后计算该基准下的合并结果的融合分数f-score(t)=w1×…×wm,其中wi表示第i个数据块中被合并的数据片的马尔科夫权重;
(5.3)选择另一个基准为起始,再次执行合并操作,计算其对应的融合分数并记录,直至获得所有不同基准下的合并结果的融合分数;然后选择融合分数最大的合并结果作为该元组的最终全局统一的清洗结果。
6.根据权利要求1所述的基于多数据版本的混合数据清洗方法,其特征在于:所述步骤(6)具体为,在完成两阶段的清洗后,对整个数据集进行扫描,为其中的每个元组建立哈希表,当扫描到重复项时,对其进行剔除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811628044.3/1.html,转载请声明来源钻瓜专利网。





