[发明专利]一种数据清洗方法、装置及计算机可读存储介质在审
| 申请号: | 202010016926.5 | 申请日: | 2020-01-08 |
| 公开(公告)号: | CN111241079A | 公开(公告)日: | 2020-06-05 |
| 发明(设计)人: | 王宏志;丁小欧;苏佳轩 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215 |
| 代理公司: | 北京格允知识产权代理有限公司 11609 | 代理人: | 周娇娇 |
| 地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 清洗 方法 装置 计算机 可读 存储 介质 | ||
1.一种数据清洗方法,其特征在于,该方法包括如下步骤:
S1、数据预处理:获取待清洗的结构化数据和时效约束,根据时效约束对结构化数据中所有元组建立时序图,并经传递规约后,消除所述时序图上的冲突,得到时效子图;
S2、时效性判定:基于所述时序子图计算每条元组的时效值,根据时效值量化各元组之间的时效顺序;
S3、一致性修复:输入CFD规则作为一致性规则,并从待清洗的结构化数据中提取一致性规则模式,得到一致性规则约束集合;基于各元组的时效值及元组之间的时效顺序,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;
S4、完整性修复:对经过一致性修复后的各个元组,利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;
S5、数据集输出:输出经过完整性修复后的各个元组,得到清洗后的数据集。
2.根据权利要求1所述的方法,其特征在于,
所述数据预处理步骤中,根据时效约束对结构化数据中所有元组建立时序图时,对于结构化数据中的每一个实体,先基于时效约束确定其对应的各条元组作为节点的时效值相对大小,再由任意两节点中时效值较小的节点向时效值较大的节点建立有向边。
3.根据权利要求2所述的方法,其特征在于,
所述数据预处理步骤中,所述时效子图定义为:
对于时效图G=(V,E),其子图Gc=(V,ETR)是时效图G经传递规约后得到的时效子图,当且仅当:
Gc与G拥有相同的传递闭包;
G′c的传递闭包与G的不同;
其中,V表示时效图G的点集,E表示时效图G的边集,ETR表示时效图G的边集E经传递规约后得到的边集。
4.根据权利要求3所述的方法,其特征在于,
所述时效性判定步骤中,基于所述时序子图计算每条元组的时效值时,包括如下步骤:
S2-1、将起始节点s、终止节点t加入到所述时序子图,并将起始节点s与所述时序子图中所有入度为0的节点相连,将所述时序子图中所有出度为0的节点与终止节点t相连,定义起始节点s的时效值为0,终止节点t的时效值为1;
S2-2、选择一条尚未确定时效值的最长时效链,为其中的所有节点均匀分配时效值,使得相邻节点之间的时效值差值相等;
S2-3、重复上述步骤S2-2,直到所述时序子图中的所有节点均被确定时效值为止。
5.根据权利要求4所述的方法,其特征在于,
所述一致性修复步骤中,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离时,一条元组的时效性-一致性联合修复距离通过如下表达式计算:
其中,r表示一条元组,表示一条CFD规则,μ、ν是在(0,1)区间内的权重系数,满足μ+ν=1;代表一致性距离,代表时效性距离;
一致性距离的表达式为:
其中,distb代表一个0或1的数值,当时,的值为1,否则为0,Ai表示属性集合中的一个属性,分别为的左部、右部涉及到的属性数量;
时效性距离的表达式为:
其中,Curr(r)、分别代表r、的时效值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010016926.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





