[发明专利]分布式实时计算系统及其数据处理方法有效
| 申请号: | 201310741313.8 | 申请日: | 2013-12-27 |
| 公开(公告)号: | CN103701906B | 公开(公告)日: | 2017-06-09 |
| 发明(设计)人: | 董方 | 申请(专利权)人: | 北京奇安信科技有限公司 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F11/14 |
| 代理公司: | 北京智汇东方知识产权代理事务所(普通合伙)11391 | 代理人: | 康正德,薛峰 |
| 地址: | 100015 北京市朝阳区酒仙*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分布式 实时 计算 系统 及其 数据处理 方法 | ||
技术领域
本发明涉及互联网,特别是涉及分布式实时计算系统及其数据处理方法。
背景技术
伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。在网页安全分析、大型网络购物平台、搜索引擎等应用环境下,需要在事件出现后必须尽快地对数据进行处理,最好的方式为数据出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批处理。
这种实时性要求较高的应用,数据以一个或多个连续数据流的形式进行传输,传统的数据库管理系统的设计并非为了快速连续地存放单独的数据单元,而且也不支持持续快速处理。因此为了实现实时大数据的分析要求,现有技术中迅速出现多种实时数据流计算系统,例如雅虎公司的S4、推特公司的Storm、IBM公司的StreamBase以及学术界开源的Borealis等。
其中,Storm以简单的编程模型、支持各种编程语言和较好的容错性能的特点,在多种环境下都有应用。Storm是一种自由的,分布式的、容错的开源实时计算系统。Storm对数据流做连续查询,在计算时就将结果以流的形式输出给用户,每秒可以处理数以百万计的消息。
Storm集群由一个主节点和多个工作节点组成。主节点用于分配代码、布置任务及故障检测。各个工作节点用于监听工作,开始并终止工作进程。在进行数据处理过程中,如果工作节点出现故障,可以实现快速重启恢复,从而容错性能较高。
在某些应用环境下,使用storm技术,在工作节点出现故障丢失的数据可以忽略不计,并不影响整个数据流的分析过程,然而在另一些应用环境下,如网站安全分析系统中,需要对形成分析报表,丢失的数据可能导致报表的准确性和连续性。针对storm系统工作节点快速恢复过程中丢失数据的问题,现有技术中尚没有提出有效的解决方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的分布式实时计算系统和相应的分布式实时计算系统的数据处理方法。本发明一个进一步的目的是要解决使用分布式实时计算系统进行数据处理时,部分数据丢失的问题。
依据本发明的一个方面,提供了分布式实时计算系统的数据处理方法。该分布式实时计算系统的数据处理方法,包括:将父节点分配的数据写入备份文件;将备份文件同步至系统中所有子节点的存储装置中;监控子节点对数据的处理进程;当出现子节点中的任意一个出现处理进程崩溃的情况,利用除处理进程崩溃的子节点之外的子节点将存储装置中保存的备份文件进行数据还原。
可选地,在将父节点分配的数据写入备份文件之前还包括:由父节点将外部数据源的数据导入分布式实时计算系统,并将导入的数据进行拆分后分配子节点。
可选地,分布式实时计算系统为网站请求实时分析系统,外部数据源的数据为向网站服务器发送的访问请求。
可选地,将父节点分配的数据写入备份文件包括:接收由父节点分配的数据,并存入缓存区;将存入缓存区的数据写入预设的存储模型,形成备份文件。
可选地,将备份文件同步至系统中所有子节点的存储装置中包括:利用布置在各个子节点的客户端监控备份文件的变化;将变化的数据同步到所有子节点的存储装置中。
可选地,在利用除处理进程崩溃的子节点之外的子节点将存储装置中保存的备份文件进行数据还原之后还包括:使用处理进程对还原后的数据进行处理,将处理结果保存到数据库中。
根据本发明的另一个方面,还提供了一种分布式实时计算系统。该分布式实时计算系统,包括一个父节点和和多个子节点,其中,父节点用于将数据分配给多个子节点;每个子节点用于将父节点分配的数据写入备份文件,并执行预设的处理进程对分配的数据进行处理;所述分布式实时计算系统还包括:同步装置,用于将每个子节点备份文件同步至系统中所有子节点的存储装置中;监控装置,用于监控子节点对数据的处理进程;数据还原装置,用于当出现子节点中的任意一个出现处理进程崩溃的情况,利用除处理进程崩溃的子节点之外的子节点将存储装置中保存的备份文件进行数据还原。
可选地,父节点还用于:将外部数据源的数据导入分布式实时计算系统,并将导入的数据进行拆分后,以分配子节点。
可选地,分布式实时计算系统用于对向网站服务器发送的访问请求进行分析。
可选地,子节点被配置为:接收由父节点分配的数据,并存入缓存区;将存入缓存区的数据写入预设的存储模型,形成备份文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇安信科技有限公司,未经北京奇安信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310741313.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电动工具
- 下一篇:服务器、终端和文件传输方法





