[发明专利]大表流式并行高速数据比对方法有效

专利信息
申请号: 201710819917.8 申请日: 2017-09-12
公开(公告)号: CN107679104B 公开(公告)日: 2020-11-24
发明(设计)人: 闻建霞;柳遵梁;姚远;陈慧慧;陈建培;吕海波 申请(专利权)人: 杭州美创科技有限公司
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/2453;G06F16/22
代理公司: 杭州杭诚专利事务所有限公司 33109 代理人: 尉伟敏;阎忠华
地址: 310011 浙江省杭州市拱*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 大表流式 并行 高速 数据 方法
【权利要求书】:

1.一种大表流式并行高速数据比对方法,其特征是,包括如下步骤:

(1-1)比对应用程序通过数据库链接配置待比对的主数据库表信息和备数据库表的信息,如果主数据库表信息和备数据库表信息结构不一致,返回无法比对;

(1-2)比较主数据库表信息和备数据库表的索引字段,获取最小值min和最大值max,用于比对开始与结束标记;并设置并行比对通道数N,N动态生成,用于并行处理:

设定主数据库表A的表结构为a integer primary key,b varchar,c number(10);备数据库表B的表结构为a integer primary key,b varchar,c number(10);

通过sql脚本查询表A,B的索引字段为:a integer,并获取两表索引字段的最小值作为比对开始标记:,索引字段的最大值作为比对结束标记:;

分别将N取值为N=1,N=2, N=3,N=4,N=5,根据开始标记startFlag递增排序每次取出表A,B中的5000行记录,将该5000行记录根据比对通道数拆分成N数据块,并进行比对,且计算N取不同值时每秒比对多少行记录;最后,将N取值为每秒比对行数最多的通道数;

(1-3)将主备数据库表的记录按索引字段递增排序,并将排序结果按并行比对通道数N进行分块,且各个通道分别流式读取数据,存于缓存中:

将剩下的待比对数据按照索引递增排序拆分成N个数据块,分别通过N个比对通道数进行比对,每个通道每次读取记录行数设置为max=5000行,分多次流式取出,存于缓存中,依次等待比对;在比对的过程中,判断各个通道是否都完成比对,未完成的通道将剩余数据拆分成多个通道,保持在并行处理数据比对的通道数为N,直到所有通道完成100万行数据比对,结束;

(1-4)在各个通道中并行处理数据比对,记录比对结果:

从缓存中读取一行记录,将主备表改行的索引字段内容进行比较,如果大小相同,则继续比较其他字段;如果大小不相同,则将不一致情况记录到异常表中,然后继续比较下一行记录;

比较结果有如下几种情况:该行记录只在主表中存在,则将异常表中的sourceCount字段加1;该行记录只在备表中存在,则将异常表中的targetCount字段加1;该行记录只在主备表中都存在,但存在字段内容不相同,则将异常表中的diffCount字段加1;该行记录只在主备表中都存在,但存在字段内容相同,则将异常表中的sameCount字段加1。

2.根据权利要求1所述的大表流式并行高速数据比对方法,其特征是,所述主数据库表信息和备数据库表的信息均包括参与比对的主备数据库对应的表名称,字段名称及对应字段类型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州美创科技有限公司,未经杭州美创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710819917.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top