[发明专利]用于分布式系统的数据处理方法及装置有效
申请号: | 201210429531.3 | 申请日: | 2012-10-31 |
公开(公告)号: | CN103793425B | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 陈冠诚;李严;李欣;滕启明;李剑 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所11256 | 代理人: | 酆迅 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分布式 系统 数据处理 方法 装置 | ||
技术领域
本发明涉及分布式系统,更具体地,涉及一种用于分布式系统的数据处理方法及装置。
背景技术
HDFS(Hadoop Distributed File System)是分布式文件系统的一个典型示例,接下来,以HDFS为例阐述现有的分布式文件系统的特点以及不足之处。
HDFS采用的是主从架构(Master/Slave),一个HDFS集群中包括一个名字节点(NameNode),多个数据节点(DataNode)。名字节点是主存储节点,管理整个文件系统的命名空间和客户端的接入请求。在名字节点,可以执行打开/关闭/重命名文件或目录等操作。数据节点是从存储节点,用于接收来自客户端的读/写请求,同时根据名字节点的指令完成文件块的建立,删除和复制。为了提高存储的可靠性,通常为一个文件存储三个副本,并以固定块大小的方式存储各个副本,HDFS默认数据块大小是64MB。HDFS的备份机制根据文件副本因子的数量,将切分的块分别复制到其它数据节点,然后由名字节点记录并保存一个文件副本包括哪些数据块,以及分布在哪些数据节点的存储分布信息,也称为文件系统的元数据信息。
然而,现有的分布式文件系统并没有考虑分布式程序的有效运行。以MapReduce程序为例,当处理以小的数据块所存储的数据文件时,会启动更多的映射(map)任务,但也会造成较大的开销。当采用大块时,可以减少客户端和主服务器通讯的需求,也会降低主服务器需要保存的元数据的空间,却不能有效地利用可用的并行计算资源。参看表1的示例,当在20个节点对1TB数据进行排序时,假设每个节点最大可同时运行的map任务数量是40,即共计800个映射槽(map slots)。可见,当采用大块时,在第二轮仅利用了200个map任务,并不能充分利用可用的计算资源。
表1
分布式文件系统的另外一个典型示例是GFS(Google File System),两者在术语上存在对应关系,例如GFS的主节点(master)对应着HDFS中的名字节点(NameNode),GFS块服务器(chunkserver)对应着HDFS中的数据节点(DataNode),GFS中的块(Chunk)对应着HDFS中的块(Block),而对于GFS而言,也同样存在着上述问题。。
综上,现有技术仍然存在着改善的空间,需要一种改进的用于分布式系统的数据处理方法及装置。
发明内容
根据本发明的一个方面,提供了一种用于分布式系统的数据处理方法,该分布式系统包括一个主存储节点以及多个从存储节点,所述方法包括:响应于写入数据文件的请求,在所述多个从存储节点上存储所述数据文件的多个副本,每个所述副本划分为大小相同的数据块,其中至少两个副本所划分出的数据块大小不同;存储所述多个副本的分布信息。
根据本发明的另一个方面,提供了一种用于分布式系统的数据处理装置,该分布式系统包括一个主存储节点以及多个从存储节点,所述装置包括:数据文件存储模块,配置为响应于写入数据文件的请求,在所述多个从存储节点上存储所述数据文件的多个副本,每个所述副本划分为大小相同的数据块,其中至少两个副本所划分出的数据块大小不同;分布信息存储模块,配置为存储所述多个副本的分布信息。
采用本申请的技术方案,可以在分布式系统中存储数据文件的多个备份时,能够综合以不同的数据块大小进行存储所带来的优势。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
图2示出根据本发明实施例的用于分布式系统的数据处理方法流程图。
图3以HDFS为例示出了图2中步骤210的一种实施方式。
图4示出了按照本申请的一个实施例在分布式系统中进行读文件操作的方法流程。
图5示出了一种根据本发明实施例的用于分布式系统的数据处理装置的示意性方框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210429531.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种帐表数据的查询和处理方法
- 下一篇:远端动态数据的处理与验证方法和系统