[发明专利]一种基于反向数据灌溉的模糊数据清洗方法有效
申请号: | 202110052379.0 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112835869B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 何雄;戴鹏睿;赵焱;杨俊华;梁云涛 | 申请(专利权)人: | 中国船舶重工集团公司七五0试验场 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/215;G06F16/22 |
代理公司: | 昆明今威专利商标代理有限公司 53115 | 代理人: | 赛晓刚 |
地址: | 650051 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 反向 数据 灌溉 模糊 清洗 方法 | ||
本发明公开了一种基于反向数据灌溉的模糊数据清洗方法,在数据关联关系不能完全分析清楚的情况下,利用反向数据灌溉的方法将旧信息系统中的数据快速清洗并迁移到新信息系统中,将筛选出的数据量过度集中且记录数多的表进行快速反向填充,然后在正向清洗阶段又将剩余数据通过可量化的概率匹配方式,逐步精细完成数据的填充,该方法既具备快速清洗迁移数据量大的表的数据的能力,同时又可以用一种通用的模式,即基于关联概率的计算来分析处理表关系难以分析清楚的数据清洗迁移任务,具有迁移速度块,有通用模式可寻的优点。
技术领域
本发明属于信息化系统建设过程中的数据迁移领域,具体为一种基于反向数据灌溉的模糊数据清洗方法。
背景技术
随着信息化技术的不断发展,旧的信息系统无论从技术还是功能上来说,都逐渐难以满足现在业务和工作需求,各个单位的工作和业务也越来越多的依赖于信息系统。
为了使信息系统能够满足单位的逐渐增长变化的信息化使用要求,就必须对原本老的信息系统进行改造或者重建,但是由于各个单位长期使用信息系统后会留下大量的宝贵数据,而新的信息系统在改造或重建过程中,由于年代久远等多方面因素,无法完全分析出旧信息系统中的各个功能项和数据项之间的关联匹配关系,故而在将老信息系统中的数据迁移到新信息系统的过程中,会出现无法确定迁移目的位置的数据项,如出现多重目的地、缺失数据项等的情况,这些情况的产生会使数据迁移的进度停滞不前,特别对于数据量较多的信息系统,如果不能快速完成不确定项数据的处理,将会影响到整个新信息系统的建设进度。
发明内容
针对上述现有技术中存在的不足,发明人进一步的设计研究,在数据关联关系不能完全分析清楚的情况下,利用反向数据灌溉的方法将旧信息系统中的数据快速清洗并迁移到新信息系统中,该反向数据灌溉的方法,可以快速解决数据过度集中的表的数据清洗迁移问题,从而为后续的进一步精细数据清洗过程提供更多的时间和依据,具有快速、普适的优点。
具体的,本发明提供了一种基于反向数据灌溉的模糊数据迁移方法,通过遍历新数据库内的所有表和旧数据库内的所有表,获取新数据库内的表集合和旧数据库内的表集合,并统计旧数据库内被遍历到的每一张表所包含的记录数;再次遍历旧数据库中的所有表,通过旧数据库内被遍历到的当前表所包含的记录数确定该表的优先级,将旧数据库内的数据高度集中的表的数据反向灌溉于新数据库内,或是用新数据库内的表的结构正向分析检索位于旧数据库内的剩余表的数据。
进一步的,该清洗方法包括以下步骤:
步骤1、通过遍历新数据库内的所有表和旧数据库内的所有表,获取新数据库内的表集合和旧数据库内的表集合,并统计旧数据库内被遍历到的每一张表所包含的记录数;
步骤2、在符合信息系统数据分布规律的前提下,根据从旧数据库内获取的表集合,以及从旧数据库内统计的被遍历到的每一张表所包含的记录数计算旧数据库内所有表的所有数据的数据密集度因子factorA;
步骤3、重新遍历旧数据库内的所有表,获取旧数据库内的表集合,通过旧数据库内被遍历到的各张表所包含的记录数的大小确定该表的优先级,优先选择旧数据库内的数据高度集中的表,获取该表的记录数,根据该表的记录数,以及从旧数据库内获取的表集合计算旧数据库内该表的数据集中度因子factorB;判断此时的数据集中度因子factorB是否大于数据密集度因子factorA;若是,则将旧数据库内数据高度集中的该表中的数据反向灌溉于新数据库内;若不是,则将旧数据库内数据高度集中的该表中的数据从新数据库向旧数据库进行正向数据清洗;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶重工集团公司七五0试验场,未经中国船舶重工集团公司七五0试验场许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110052379.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置