[发明专利]一种自动化的数据清洗方法在审
申请号: | 202110742624.0 | 申请日: | 2021-07-01 |
公开(公告)号: | CN113392099A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 胡德斌 | 申请(专利权)人: | 苏州维众数据技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/245;G06F16/28 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 215000 江苏省苏州市工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动化 数据 清洗 方法 | ||
1.一种自动化的数据清洗方法,针对关系型数据库,其特征在于,包括如下步骤:
S1、制定规则集,依据行业常识或行业数据标准人为制定规则,并将所制定的规则汇总形成规则集,并定义所述规则集内的所有规则为强规则;
S2、设定规则集的判定函数,为所述规则集内的规则设定判定函数,利用所述判定函数判断所述关系型数据库中的数据表是否符合规则,并反馈对应结果;
S3、计算数据表的整体置信度,计算所述数据表中所有字段数据符合所述规则集中全部规则的概率,并使用计算结果表示所述数据表的置信度;
S4、计算数据表中各字段的置信度,计算所述数据表中各个字段符合所述规则集中相应规则的概率,并使用计算结果表示所述数据表中各字段的置信度;
S5、明确数据表中各字段间的依赖关系,构建所有的所述数据表中字段的关系表,得到节点关系表;
S6、构建节点间的关系矩阵,读取待清洗数据表内的所有字段,在已有的所述数据表中查找对应字段,分别逐一判定节点之间的依赖关系;
S7、计算节点之间的影响因子,通过计算得到节点之间的影响力模型;
S8、数据赋值,依据S7中的计算结果,使用置信度高的数据替换置信度低的数据、对所述数据表中的各字段进行重新赋值;
S9、完成数据清洗,重复S7~S8,直至待清洗数据表内所有字段均完成相应操作、数据清洗随即完毕。
2.根据权利要求1所述的一种自动化的数据清洗方法,其特征在于:在所述关系型数据库中包含多张数据表,每张所述数据表由行、列组成,其中行表示该张所述数据表中有多少条数据、列由多个字段组成,每张所述数据表均为由多个字段组成的数据集合,每个字段对应一个节点,所述节点为对应字段极其描述数据所构成的多元数据组。
3.根据权利要求2所述的一种自动化的数据清洗方法,其特征在于:在S1中,依据行业常识或行业数据标准,人为制定条规则,每条规则分别记为随后将所制定的规则汇总形成规则集,并定义该所述规则集内的所有规则为强规则所述数据表中每个字段至少存在一条强规则。
4.根据权利要求3所述的一种自动化的数据清洗方法,其特征在于:在S2中,为所述规则集内的规则设定判定函数,
,
对于给定输入数据,当符合规则时,函数反馈结果为1,否则反馈结果为0。
5.根据权利要求4所述的一种自动化的数据清洗方法,其特征在于:在S3中,对数据表,定义其整体置信度计算公式,
,
其中,表示数据表中总的数据条数,表示规则集中总的规则条数,表示数据表中各个字段的数据,表示数据表中所有数据符合规则集的条数。
6.根据权利要求5所述的一种自动化的数据清洗方法,其特征在于:在S4中,将数据表中的字段记为,定义数据表中各字段的置信度计算公式,
,
其中,表示规则集中与字段相关的规则的条数。
7.根据权利要求6所述的一种自动化的数据清洗方法,其特征在于:在S5中,所述节点关系表中包含三种节点关系,即父子节点关系、共字段节点关系以及完全独立节点关系。
8.根据权利要求7所述的一种自动化的数据清洗方法,其特征在于:在S6中,读取待清洗数据表内的所有字段,在已有的所述数据表中查找对应字段,分别逐一判定节点之间的依赖关系,构成一个关系图,
,,
其中表示各节点,表示节点之间的依赖关系。
9.根据权利要求8所述的一种自动化的数据清洗方法,其特征在于:在S7中,具体包括如下步骤,
S71、依据S3、S4,计算所有节点的初始概率,即节点代表的字段数据的置信度;
S72、依据S5、S6,构建节点之间的关系矩阵;
S73、根据关系矩阵更新各个节点之间的影响力因子,表示节点对的影响因子,是的影响力节点。
10.根据权利要求9所述的一种自动化的数据清洗方法,其特征在于:在S8中,具体包括如下步骤,
S81、找出节点影响力因子最大的一组值对应的节点;
S82、比较与,如果,则用表示的数据表字段值代替节点表示的数据表字段值,如果,则节点表示的字段数据值不变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州维众数据技术有限公司,未经苏州维众数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110742624.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置