[发明专利]基于数据特征码的大文件比对方法以及比对系统有效
申请号: | 201610106195.7 | 申请日: | 2016-02-26 |
公开(公告)号: | CN105787041B | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 张工厂 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06Q40/02 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 臧霁晨;张懿 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 特征 文件 方法 以及 系统 | ||
本发明涉及基于数据特征码的大文件比对方法及其比对系统。本发明的方法包括下述步骤:特征码提取比对步骤,对大文件提取数据特征码,按照所述数据特征码生成特征码文件,比对所述特征码文件是否一致;文件拆分步骤,在所述特征码文件的比对结果为一致的情况下,基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件;子文件比对步骤,并发对所述N个子文件进行比对;以及结果合并步骤,将所述子文件比对步骤的比对结果进行合并。根据本发明,能够提高数据处理效率,对资源要求不高,即使在配置较低的机器上也能正常运行。
技术领域
本发明涉及大数据处理技术,具体地涉及基于数据特征码的大文件比对方法以及比对系统。
背景技术
批量处理系统(比如跨行清算系统),往往生成很大量的流水文件。版本上线前,往往会进行新旧系统版本的结果输出进行内容比对。其中,如果相同交易的记录只要一样,即使记录顺序不一样,也认为是相同,面对如此大的文件(单个文件大小就将达到数GB),现有工具往往无法处理,会产生比如内存耗光导致系统宕机的情况。
发明内容
鉴于上述问题,本发明旨在提供一种处理效率高、对配置资源要求不高,即使在配置较低的机器上也能够轻松完成大文件的比对的基于数据特征码的大文件比对系统以及比对方法。
本发明的基于数据特征码的大文件比对方法,其特征在于,包括下述步骤:
特征码提取比对步骤,对大文件提取数据特征码,按照所述数据特征码生成特征码文件,比对所述特征码文件是否一致;
文件拆分步骤,在所述特征码文件的比对结果为一致的情况下,基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件;
子文件比对步骤,并发对所述N个子文件进行比对;以及
结果合并步骤,将所述子文件比对步骤的比对结果进行合并。
优选地,所述特征码提取比对步骤包括下述子步骤:
对大文件提取数据特征码;
对生成的数据特征码进行去重;
按照所述去重后的数据特征码生成特征码文件;
比对所述特征码文件是否一致,在所述特征码文件一致的情况下进行所述文件拆分步骤,否则结束处理。
优选地,所述特征码提取比对步骤包括下述子步骤:
对大文件的记录进行规定算法变换;
对规定算法变换后的记录提取数据特征码;
对生成的数据特征码进行去重;
按照所述去重后的数据特征码生成特征码文件;
比对所述特征码文件是否一致,在所述特征码文件一致的情况下进行所述文件拆分步骤,否则结束处理。
优选地,所述文件拆分步骤包括下述子步骤:
将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件;以及
将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。
优选地,在所述子文件比对步骤中,并发对所述N个子文件进行比对。
优选地,在所述结果合并步骤中,将所述子文件比对步骤的N个子文件的比对结果进行合并。
本发明的基于数据特征码的大文件比对系统,其特征在于,具备:
特征码提取比对模块,用于对大文件提取数据特征码,按照所述数据特征码生成特征码文件,比对所述特征码文件是否一致;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610106195.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种跨平台商业银行移动应用分发管理模式
- 下一篇:一种数据整合方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置