[发明专利]基于多数据架构中心面向数据密集型应用的并行编程方法在审
| 申请号: | 201210359600.8 | 申请日: | 2012-09-24 | 
| 公开(公告)号: | CN102880510A | 公开(公告)日: | 2013-01-16 | 
| 发明(设计)人: | 王力哲 | 申请(专利权)人: | 中国科学院对地观测与数字地球科学中心 | 
| 主分类号: | G06F9/46 | 分类号: | G06F9/46;G06F9/50 | 
| 代理公司: | 北京纽乐康知识产权代理事务所 11210 | 代理人: | 覃莉 | 
| 地址: | 100094*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 多数 架构 中心 面向 数据 密集型 应用 并行 编程 方法 | ||
技术领域
本发明涉及大规模数据密集型科学数据处理技术领域,尤其涉及一种基于多数据架构中心面向数据密集型应用的并行编程方法。
背景技术
万维网的快速增长产生了大量可用的在线信息。此外,社会、科学和工程应用也产生了大量结构化和非结构化的信息,这些信息需要被处理、分析和连接。目前,典型的数据密集型计算使用数据中心架构和大规模数据处理模式。本发明研究基于多个数据中心的大规模数据处理模型。
近年来,多个分布式机群或数据中心的数据密集型科学数据分析需求显著增长。一个数据密集型分析的好例子是高能物理领域(HEP,High Energy Physics),包括ALICE,ATLAS,CMS和LHCB在内的大型强子对撞机(LHC,Large Hadron Collider)的四个主要探测器在2010年产生了13PB的数据,这些大量数据存储在LHC世界范围内的计算网格中,包括分布在34个国家的140多个计算中心[3,4]。这些分布在全球的分布式计算中心通过广域网相连,彼此之间的数据拷贝过程是低效而乏味的。通过在多个机群之上使用数据并行处理模式,科学家们的模拟计算能够并发地在多计算中心上进行,并且不需要数据拷贝。
当前的数据密集型工作流系统,例如DAGMan、Pegasus、Swift、Kepler、Virtual Workflow、Virtual Data System和Taverna,被用于跨多数据中心的分布式数据处理。在多数据中心上使用工作流模式有如下限制:1)工作流提供粗粒度并行,并且不能满足高吞吐数据处理需求,这些高吞吐数据处理往往需要大规模并行处理;2)典型的数据密集型计算工作流系统需要多任务间大量的数据传输,有时会带来不必要的数据块或数据集移动;3)工作流系统必须考虑任务执行和数据传输的容错问题,容错是数据密集型计算实现的重要问题。将谷歌的MapReduce用于分布式数据中心的数据处理,能够克服工作流系统的上述限制。
MapReduce是谷歌提出用于大规模数据集的并行编程模型,它基于两个主要过程:映射(Map)和规约(Reduce)。映射函数用来把一组键值对映射成一组新的键值对,规约函数合并所有相同的中间值。许多现实世界的应用都采用MapReduce模型。Gfarm文件系统是一个分布式文件系统,用于共享全球范围内大量的分布式数据。Gfarm文件系统支持在计算节点上的本地存储能力。
因此目前亟需提出基于多数据中心面向数据密集型应用的并行编程方法设计和实现。为了共享多个管理域的数据集,我们使用了Gfarm文件系统来代替Hadoop的文件系统HDFS(Hadoop Distributed File System)。用户向Gfarm提交他们的MapReduce应用,基于多数据中心面向数据密集型应用的并行编程模型执行映射(map)和化简(reduce)任务。
基于多数据中心面向数据密集型应用的并行编程方法提供了一个基于MapReduce的并行处理环境,处理分布式机群的大规模数据集。与现有的数据密集型工作流系统相比,该方法实现了细粒度的数据并行处理,达到高吞吐数据处理性能,并且提供大规模数据处理的容错功能。
发明内容
本发明的目的是提供一种基于多数据架构中心面向数据密集型应用的并行编程方法,在保持各机群的自治性和现有Hadoop的MapReduce程序兼容性前提下,通过构建基于MapReduce编程模型的框架,能够自动加载MapReduce任务,使之在多个全球分布的机群节点上并行执行,解决多数据中心的数据密集型应用的并行编程问题。
本发明的目的通过以下技术方案来实现:
一种基于多数据架构中心面向数据密集型应用的并行编程方法,包括以下步骤:
1)构建系统架构的主节点,接收用户提交的若干作业,并通过主节点将所述作业分割成相对应的次一级任务,并将所述次一级任务分布到子节点上, 所述主节点包括元数据Metadata服务器和作业跟踪程序JobTracker服务器,所述元数据Metadata服务器使用Gfarm文件系统未经修改的元数据服务器,元数据服务器管理分布在多个机群上的文件,决定文件的实际位置,管理文件的复制,协调多个客户对文件的访问;元数据服务器还需要管理用户访问控制信息,所述作业跟踪程序JobTracker服务器使用一个数据感知的调度器,在考虑数据所在位置的基础上,将计算任务分布到多个机群中;
2)构建系统架构的子节点,所述子节点包括任务跟踪程序TaskTracker服务器、作业跟踪程序、I/O服务器程序和网络共享程序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院对地观测与数字地球科学中心,未经中国科学院对地观测与数字地球科学中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210359600.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:接地线声光报警装置
- 下一篇:一种基于需求响应的能效间接监控装置





