[发明专利]块同步并行计算中实现检查点的方法、装置和系统在审
| 申请号: | 201210306762.5 | 申请日: | 2012-08-27 |
| 公开(公告)号: | CN103631815A | 公开(公告)日: | 2014-03-12 |
| 发明(设计)人: | 蔡斌;李勇;肖磊;薛伟;张夏天;刘大鹏;言艳花;姜磊;郭伟昭;胡智超;胡少锋;路华;柳金晶 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/14 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张驰;宋志强 |
| 地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 同步 并行 计算 实现 检查点 方法 装置 系统 | ||
技术领域
本发明实施方式涉及块同步并行计算技术领域,更具体地,涉及一种块同步并行计算中实现检查点的方法、装置和系统。
背景技术
并行计算或称平行计算是相对于串行计算的,可分为时间上的并行和空间上的并行。时间上的并行就是指流水线技术,而空间上的并行则是指用多个处理器并发的执行计算。块同步并行计算是一种并行计算方法,它由Valiant于1990提出。在块同步并行计算中,将计算分为多个超步。在超步中,所有的进程并行执行本地计算阶段和全局通信阶段,最后进行栅栏同步。本地计算阶段可以并行,全局通信阶段可以使用多种消息系统,它支持传统的并行消息传递系统,并简化了海量数据处理的复杂程度。
在块同步并行计算中,程序划分为超步,所以避免了传统消息传递系统中存在的死锁问题。目前,图计算系统Pregel、Apache的开源项目Hama和加州大学伯克利分校的Spark分布式计算系统,都是基于块同步并行计算,它们都支持在块同步并行计算模型上的多次迭代,以支持数据挖掘、图分析和社会网络分析和大规模矩阵运算等海量数据处理任务。由于超步间数据可以保存在本地,相比MapReduce等传统海量数据处理技术,同步并行计算效率更高,更充分地利用了数据的局部性。
块同步并行计算系统一般和并行分布式容错文件系统一起,用于处理海量数据。并行分布式容错文件系统包括单一节点的名字节点(Name Node)和众多可扩展的数据节点(DataNode)。名字节点主要负责存储信息的元数据管理、数据完整性和访问安全性;数据节点负责进行实际数据信息的存储工作,并直接与客户端程序进行交互进行数据传输。
在上述包含块同步并行计算系统与并行分布式容错文件系统的统一计算模型中,检查点是一种重要的容灾方法。比如,在同步并行计算的迭代计算中,如果在超步k后系统产生了检查点,当计算任务n.1所在的主机出错时,系统只需要在正常工作的主机上恢复从超步k检查点开始到超步n之间、计算任务n.1所依赖的计算量,而不需要从头开始进行错误恢复。
然而,在现有技术中,与检查点相关的数据都是串行处理的,而串行处理的处理效率很低。而且,在现有技术中,每次与检查点相关的串行处理都需要与元数据节点具有交互操作,这同样降低了数据处理效率。
发明内容
本发明实施方式提出一种块同步并行计算中实现检查点的方法,从而提高数据处理效率。
本发明实施方式提出一种块同步并行计算中实现检查点的装置,从而提高数据处理效率。
本发明实施方式提出一种块同步并行计算中实现检查点的系统,从而提高数据处理效率。
本发明实施方式的具体方案如下:
一种块同步并行计算中实现检查点的方法,该方法包括:
将分布式文件系统中的数据节点和块同步并行计算系统中对应的工作节点布置在同一物理设备上;
按照所述分布式文件系统的文件带区格式对所述工作节点上的检查点数据文件进行划分,并创建相对应的校验文件;
将所述划分后的检查点数据文件和相对应的校验文件,在该同一物理设备上从所述工作节点移动到数据节点;
将移动到该数据节点的检查点数据文件和校验文件复制到该块同步并行计算系统的另外数据节点中。
一种块同步并行计算中实现检查点的装置,该装置包括节点布置单元、检查点数据文件划分单元、数据移动单元和数据复制单元,其中:
节点布置单元,用于将分布式文件系统中的数据节点和块同步并行计算系统中对应的工作节点布置在同一物理设备上;
检查点数据文件划分单元,用于按照所述分布式文件系统的文件带区格式对所述工作节点上的检查点数据文件进行划分,并创建相对应的校验文件;
数据移动单元,用于将所述划分后的检查点数据文件和相对应的校验文件,在该同一物理设备上从所述工作节点移动到数据节点;
数据复制单元,用于将移动到该数据节点的检查点数据文件和校验文件复制到该块同步并行计算系统的另外数据节点中。
一种块同步并行计算中实现检查点的系统,该系统包括分布式文件子系统和块同步并行计算子系统,所述分布式文件子系统包括数据节点;所述块同步并行计算子系统包括对应于数据节点的工作节点;所述数据节点和对应的工作节点布置在同一物理设备上;
工作节点,用于按照所述分布式文件子系统的文件带区格式对其上的检查点数据文件进行划分,并创建相对应的校验文件,且将所述划分后的检查点数据文件和相对应的校验文件,在该同一物理设备上从所述工作节点移动到数据节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210306762.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于路由器通信信号异常提醒器
- 下一篇:一种多功能羽绒服





