[发明专利]一种针对结构化数据的并发分布式验证方法在审
申请号: | 201611205083.3 | 申请日: | 2016-12-23 |
公开(公告)号: | CN108241806A | 公开(公告)日: | 2018-07-03 |
发明(设计)人: | 冯蓉;梁斯东;刘双双 | 申请(专利权)人: | 航天星图科技(北京)有限公司 |
主分类号: | G06F21/64 | 分类号: | G06F21/64 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 101399 北京市顺义区国*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式验证 结构化数据 表格数据 处理节点 并发 用户自定义数据 数据校验功能 分布式处理 处理效率 结果数据 验证方式 验证 返回 保证 | ||
本发明涉及一种针对结构化数据的并发分布式验证方法,其将表格数据关系集切分,使其能够以片段的形式在不同的处理节点进行处理,每个处理节点只处理一部分数据,极大地提高了表格数据的处理效率。同时,提供了数据校验功能,保证了数据分布式处理过程中的稳定性及正确性。同时允许用户自定义数据验证方式,最终将验证的结果数据返回给对应的用户。
【技术领域】
本发明致力于数据安全访问,通过在结构化数据的并发处理过程中,对结构化数据进行分布式验证,而保证在结构化数据的处理过程中数据无缺失且完整。
【背景技术】
目前,对表格等结构化数据的处理,一般使用的是传统的非分布式计算技术。这种传统的非分布式的计算技术只适用于处理少量表格数据,当表格数据的数量不断膨胀,达到巨量甚至是海量的地步时,使用该传统方式去处理报表数据,就会出现各种弊端。首先,这种传统的非分布式技术对软、硬件平台的要求都非常高,这将给用户带来十分高昂的成本压力。其次,即使用户愿意付出高昂的成本,在绝大多数情况下,这种传统的非分布式技术的处理速度和处理效率,都非常之低。有时,某些表格数据的处理过程,往往需要耗时数小时甚至是数天才能完成。且普通的扩展方式不仅成本大、效率低下,且安全性和可靠性不能得到保证。因此,本申请提出以下方案。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种针对结构化数据的并发分布式验证方法。
本发明采用的技术方案如下:
一种针对结构化数据的并发分布式验证方法,其特征在于,该方法包括:
获取数据素材;
生成结构化数据关系集,并对所生成的结构化数据关系集按行切分成多个关系子集,其中每个关系子集包括多行结构化数据关系;以及
将所述结构化数据送到计算机集群中的每个计算机节点;
将对关系子集的处理分配到所述计算机集群中的多个计算机节点进行处理并验证;
保存所述多个计算机节点运算处理和验证的状态快照;以及当对任一关系子集的处理和验证中断时,根据所述状态快照恢复中断前的处理状态,以及继续执行中断的处理和验证;
将所述多个计算机节点的处理和验证结果保存到与所述计算机集群中的所有计算机节点连接的共享存储器。
优选地,所述多个计算机节点进行处理和验证包括公式运算和对运算结果进行合并,以得到多个初级合并结果;以及对所述多个初级合并的结果进行再次合并;以及将再次合并后的最终数据结果输出给目标应用。
优选地,对所述多个计算机节点进行心跳检测;以及将分配到心跳检测无响应的计算机节点的运算转移到其他计算机节点。
本发明的有益效果包括:将表格数据关系集切分,使其能够以片段的形式在不同的处理节点进行处理,每个处理节点只处理一部分数据,极大地提高了表格数据的处理效率。同时,提供了数据校验功能,保证了数据分布式处理过程中的稳定性及正确性。同时允许用户自定义数据验证方式,最终将验证的结果数据返回给对应的用户。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定;
图1是本发明方法的流程图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
参见附图1,一种针对结构化数据的并发分布式验证方法,其特征在于,该方法包括:
获取数据素材;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天星图科技(北京)有限公司,未经航天星图科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611205083.3/2.html,转载请声明来源钻瓜专利网。