[发明专利]大表流式并行高速数据比对方法有效
| 申请号: | 201710819917.8 | 申请日: | 2017-09-12 |
| 公开(公告)号: | CN107679104B | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 闻建霞;柳遵梁;姚远;陈慧慧;陈建培;吕海波 | 申请(专利权)人: | 杭州美创科技有限公司 |
| 主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2453;G06F16/22 |
| 代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏;阎忠华 |
| 地址: | 310011 浙江省杭州市拱*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大表流式 并行 高速 数据 方法 | ||
1.一种大表流式并行高速数据比对方法,其特征是,包括如下步骤:
(1-1)比对应用程序通过数据库链接配置待比对的主数据库表信息和备数据库表的信息,如果主数据库表信息和备数据库表信息结构不一致,返回无法比对;
(1-2)比较主数据库表信息和备数据库表的索引字段,获取最小值min和最大值max,用于比对开始与结束标记;并设置并行比对通道数N,N动态生成,用于并行处理:
设定主数据库表A的表结构为a integer primary key,b varchar,c number(10);备数据库表B的表结构为a integer primary key,b varchar,c number(10);
通过sql脚本查询表A,B的索引字段为:a integer,并获取两表索引字段的最小值作为比对开始标记:,索引字段的最大值作为比对结束标记:;
分别将N取值为N=1,N=2, N=3,N=4,N=5,根据开始标记startFlag递增排序每次取出表A,B中的5000行记录,将该5000行记录根据比对通道数拆分成N数据块,并进行比对,且计算N取不同值时每秒比对多少行记录;最后,将N取值为每秒比对行数最多的通道数;
(1-3)将主备数据库表的记录按索引字段递增排序,并将排序结果按并行比对通道数N进行分块,且各个通道分别流式读取数据,存于缓存中:
将剩下的待比对数据按照索引递增排序拆分成N个数据块,分别通过N个比对通道数进行比对,每个通道每次读取记录行数设置为max=5000行,分多次流式取出,存于缓存中,依次等待比对;在比对的过程中,判断各个通道是否都完成比对,未完成的通道将剩余数据拆分成多个通道,保持在并行处理数据比对的通道数为N,直到所有通道完成100万行数据比对,结束;
(1-4)在各个通道中并行处理数据比对,记录比对结果:
从缓存中读取一行记录,将主备表改行的索引字段内容进行比较,如果大小相同,则继续比较其他字段;如果大小不相同,则将不一致情况记录到异常表中,然后继续比较下一行记录;
比较结果有如下几种情况:该行记录只在主表中存在,则将异常表中的sourceCount字段加1;该行记录只在备表中存在,则将异常表中的targetCount字段加1;该行记录只在主备表中都存在,但存在字段内容不相同,则将异常表中的diffCount字段加1;该行记录只在主备表中都存在,但存在字段内容相同,则将异常表中的sameCount字段加1。
2.根据权利要求1所述的大表流式并行高速数据比对方法,其特征是,所述主数据库表信息和备数据库表的信息均包括参与比对的主备数据库对应的表名称,字段名称及对应字段类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州美创科技有限公司,未经杭州美创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710819917.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





