[发明专利]一种自动化的数据清洗方法在审
申请号: | 202110742624.0 | 申请日: | 2021-07-01 |
公开(公告)号: | CN113392099A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 胡德斌 | 申请(专利权)人: | 苏州维众数据技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/245;G06F16/28 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 215000 江苏省苏州市工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动化 数据 清洗 方法 | ||
本发明揭示了一种自动化的数据清洗方法,针对关系型数据库,包括如下步骤:S1、制定规则集;S2、设定规则集的判定函数;S3、计算数据表的整体置信度;S4、计算数据表中各字段的置信度;S5、明确数据表中各字段间的依赖关系;S6、构建节点间的关系矩阵;S7、计算节点之间的影响因子;S8、数据赋值;S9、完成数据清洗。本发明利用计算机技术实现了自动化的数据清洗作业,整个过程中无需人工建立数据表之间的关系,最大限度地节约了企业的人力资源,提高了数据清洗的效率。
技术领域
本发明涉及一种数据处理方法,具体而言,涉及一种利用计算机算法的自动化的数据清洗方法,属于大数据处理技术领域。
背景技术
大数据一般是指无法在一定时间内利用常规软件工具对其内容进行抓取、管理和处理的数据集合,也是近年来受到人们广泛关注、讨论和研究的一个概念。相应地,从各种类型的大数据中快速获取有价值信息的大数据处理技术近年来也得到了长足的进步。
数据清洗是大数据处理技术在应用过程中的一项重要环节,随着数据量的不断增加,大数据中的噪声数据也越来越多,这些噪声数据可能表现为错误数据、空值数据、相互矛盾的数据以及模糊或有歧义的数据等,这些噪声数据的存在给大数据处理技术的实际应用带来了巨大的困扰,使得本领域内的技术人员不得不花费大量的时间来进行数据清洗作业。
可以认为,在现阶段,数据清洗已经成为数据科学中最为重要,也最为耗费人力、物力的一项基础工作。加之目前本领域内缺少具有普适性、通用性的数据清洗方案,大多数的工作仍然需要人工完成,很显然,这对于企业而言无疑是人力资源的极大浪费、严重制约了企业的生产效率和实际产出。
综上所述,如何在现有技术的基础上提出一种综合性的、自动化的数据清洗方法,以克服现有技术中的诸多缺陷,也就成为了业内研究人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种利用计算机算法的自动化的数据清洗方法,具体如下。
一种自动化的数据清洗方法,针对关系型数据库,包括如下步骤:
S1、制定规则集,依据行业常识或行业数据标准人为制定规则,并将所制定的规则汇总形成规则集,并定义所述规则集内的所有规则为强规则;
S2、设定规则集的判定函数,为所述规则集内的规则设定判定函数,利用所述判定函数判断所述关系型数据库中的数据表是否符合规则,并反馈对应结果;
S3、计算数据表的整体置信度,计算所述数据表中所有字段数据符合所述规则集中全部规则的概率,并使用计算结果表示所述数据表的置信度;
S4、计算数据表中各字段的置信度,计算所述数据表中各个字段符合所述规则集中相应规则的概率,并使用计算结果表示所述数据表中各字段的置信度;
S5、明确数据表中各字段间的依赖关系,构建所有的所述数据表中字段的关系表,得到节点关系表;
S6、构建节点间的关系矩阵,读取待清洗数据表内的所有字段,在已有的所述数据表中查找对应字段,分别逐一判定节点之间的依赖关系;
S7、计算节点之间的影响因子,通过计算得到节点之间的影响力模型;
S8、数据赋值,依据S7中的计算结果,使用置信度高的数据替换置信度低的数据、对所述数据表中的各字段进行重新赋值;
S9、完成数据清洗,重复S7~S8,直至待清洗数据表内所有字段均完成相应操作、数据清洗随即完毕。
优选地,在所述关系型数据库中包含多张数据表,每张所述数据表由行、列组成,其中行表示该张所述数据表中有多少条数据、列由多个字段组成,每张所述数据表均为由多个字段组成的数据集合,每个字段对应一个节点,所述节点为对应字段极其描述数据所构成的多元数据组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州维众数据技术有限公司,未经苏州维众数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110742624.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置