[发明专利]一种基于反向数据灌溉的模糊数据清洗方法有效

专利信息
申请号: 202110052379.0 申请日: 2021-01-15
公开(公告)号: CN112835869B 公开(公告)日: 2023-05-02
发明(设计)人: 何雄;戴鹏睿;赵焱;杨俊华;梁云涛 申请(专利权)人: 中国船舶重工集团公司七五0试验场
主分类号: G06F16/21 分类号: G06F16/21;G06F16/215;G06F16/22
代理公司: 昆明今威专利商标代理有限公司 53115 代理人: 赛晓刚
地址: 650051 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 反向 数据 灌溉 模糊 清洗 方法
【说明书】:

发明公开了一种基于反向数据灌溉的模糊数据清洗方法,在数据关联关系不能完全分析清楚的情况下,利用反向数据灌溉的方法将旧信息系统中的数据快速清洗并迁移到新信息系统中,将筛选出的数据量过度集中且记录数多的表进行快速反向填充,然后在正向清洗阶段又将剩余数据通过可量化的概率匹配方式,逐步精细完成数据的填充,该方法既具备快速清洗迁移数据量大的表的数据的能力,同时又可以用一种通用的模式,即基于关联概率的计算来分析处理表关系难以分析清楚的数据清洗迁移任务,具有迁移速度块,有通用模式可寻的优点。

技术领域

本发明属于信息化系统建设过程中的数据迁移领域,具体为一种基于反向数据灌溉的模糊数据清洗方法。

背景技术

随着信息化技术的不断发展,旧的信息系统无论从技术还是功能上来说,都逐渐难以满足现在业务和工作需求,各个单位的工作和业务也越来越多的依赖于信息系统。

为了使信息系统能够满足单位的逐渐增长变化的信息化使用要求,就必须对原本老的信息系统进行改造或者重建,但是由于各个单位长期使用信息系统后会留下大量的宝贵数据,而新的信息系统在改造或重建过程中,由于年代久远等多方面因素,无法完全分析出旧信息系统中的各个功能项和数据项之间的关联匹配关系,故而在将老信息系统中的数据迁移到新信息系统的过程中,会出现无法确定迁移目的位置的数据项,如出现多重目的地、缺失数据项等的情况,这些情况的产生会使数据迁移的进度停滞不前,特别对于数据量较多的信息系统,如果不能快速完成不确定项数据的处理,将会影响到整个新信息系统的建设进度。

发明内容

针对上述现有技术中存在的不足,发明人进一步的设计研究,在数据关联关系不能完全分析清楚的情况下,利用反向数据灌溉的方法将旧信息系统中的数据快速清洗并迁移到新信息系统中,该反向数据灌溉的方法,可以快速解决数据过度集中的表的数据清洗迁移问题,从而为后续的进一步精细数据清洗过程提供更多的时间和依据,具有快速、普适的优点。

具体的,本发明提供了一种基于反向数据灌溉的模糊数据迁移方法,通过遍历新数据库内的所有表和旧数据库内的所有表,获取新数据库内的表集合和旧数据库内的表集合,并统计旧数据库内被遍历到的每一张表所包含的记录数;再次遍历旧数据库中的所有表,通过旧数据库内被遍历到的当前表所包含的记录数确定该表的优先级,将旧数据库内的数据高度集中的表的数据反向灌溉于新数据库内,或是用新数据库内的表的结构正向分析检索位于旧数据库内的剩余表的数据。

进一步的,该清洗方法包括以下步骤:

步骤1、通过遍历新数据库内的所有表和旧数据库内的所有表,获取新数据库内的表集合和旧数据库内的表集合,并统计旧数据库内被遍历到的每一张表所包含的记录数;

步骤2、在符合信息系统数据分布规律的前提下,根据从旧数据库内获取的表集合,以及从旧数据库内统计的被遍历到的每一张表所包含的记录数计算旧数据库内所有表的所有数据的数据密集度因子factorA;

步骤3、重新遍历旧数据库内的所有表,获取旧数据库内的表集合,通过旧数据库内被遍历到的各张表所包含的记录数的大小确定该表的优先级,优先选择旧数据库内的数据高度集中的表,获取该表的记录数,根据该表的记录数,以及从旧数据库内获取的表集合计算旧数据库内该表的数据集中度因子factorB;判断此时的数据集中度因子factorB是否大于数据密集度因子factorA;若是,则将旧数据库内数据高度集中的该表中的数据反向灌溉于新数据库内;若不是,则将旧数据库内数据高度集中的该表中的数据从新数据库向旧数据库进行正向数据清洗;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶重工集团公司七五0试验场,未经中国船舶重工集团公司七五0试验场许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110052379.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top