[发明专利]一种大规模存储系统元数据分布式管理方法与系统有效
| 申请号: | 201910405408.X | 申请日: | 2019-05-16 |
| 公开(公告)号: | CN110287150B | 公开(公告)日: | 2021-05-11 |
| 发明(设计)人: | 吴广君;李斌斌;王树鹏;贾思宇;赵百强 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/182 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 大规模 存储系统 数据 分布式 管理 方法 系统 | ||
本发明公开了一种大规模存储系统元数据分布式管理方法与系统。本发明将HDFS存储于NameNode内存中的元数据抽象成二维表的结构,以二维表的形式存储在分布式数据库中;抽象后的各二维表之间通过inode_id相互关联。Namenode成为客户端存取元数据的桥梁,客户端首先连接Namenode,Namenode来操作分布式数据库中的元数据,并将元数据返回给客户端。本发明解决了HDFS的单点故障问题。
技术领域
本发明属于分布式数据存储技术领域,具体涉及一种大规模存储系统的元数据分布式管理与组织方法。
背景技术
随着大数据技术与应用、物联网以及云计算的迅猛发展,集中存储的数据量通常可以达到PB甚至EB级别。分布式文件系统是存储和管理大规模数据文件常用的解决方法。分布式文件系统利用多台机器搭建存储集群,数据的存储容量也随着机器数量线性增长。要支持大规模数据的存储,除了需要硬件支持外,元数据的管理技术也是必不可少的关键技术之一。HDFS(Hadoop Distributed File System)是最常见的分布式文件系统,但是HDFS将元数据存储在Namenode单台机器的内存上,限制了元数据存储空间的大小,也成为系统性能的瓶颈。Ceph是一款高性能、高可用、高扩展的分布式文件系统,提出了根据负载情况来动态划分元数据的动态子树划分法,动态地将负载较高节点上的元数据迁移到负载较低的节点上,实现了动态地负载均衡,但是当小文件数目较多时,Ceph扩展多个元数据服务节点还并不稳定,无法提供在线平滑扩容服务。GlusterFS利用弹性哈希算法取代了元数据管理服务,利用文件路径和文件名来计算文件的存储位置,从根本上解决了由于元数据服务导致的系统瓶颈问题,并且遍历效率低,当某个目录下的文件较多时,运行文件扫描、统计、遍历等操作会非常的缓慢。
基于分布式NewSQL数据库开展分布式元数据管理方面,也已经出现相关的研究成果。HopsFS是一款开源的分布式文件系统,它是在HDFS的基础上,将元数据存储在MysqlCluster分布式内存数据库中,以此来扩大元数据的存储容量。但是Mysql Cluster依然对机器的内存要求比较高,并且Mysql Cluster在数据表规模较大时,对数据表与数据分片管理灵活性差,一般是通过数据表分区的方式把每个表数据分布在所有的数据节点上,同时Mysql Cluster采用GPLv2开源协议,而本发明用的Postgres-XL采用BSD协议,更适合商业化的二次开发。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于NewSQL的大规模存储系统元数据分布式管理方法与系统。
本发明提出基于Postgres-XL分布式数据库来存储分布式文件系统的元数据。Postgres-XL分布式关系型数据库既保持了ACID特性,又具有海量数据的存储能力。本发明利用Postgres-XL分布式关系型数据库,设计一种高可扩展性的元数据服务,将HDFS存储于单台机器的元数据抽象成二维表的形式,存储于分布式数据库中。相比于HDFS和HopsFS依赖于内存的大小的弊端,本发明的元数据存储空间更大。Postgres-XL是可扩展的、高可用的分布式数据库,数据分布在多台数据节点中,每台都可以设置相应的备用机器或者以多副本的形式存储,具备高可用性。因此利用Postgres-XL搭建的元数据服务集群也具有可扩展性和高可用性。
本发明将元数据全部存储在分布式数据库中,Namenode不再存储元数据。Namenode成为客户端存取元数据的桥梁,客户端首先连接Namenode,Namenode来操作分布式数据库中的元数据,并将元数据返回给客户端。由于Namenode不再存储元数据,因此本发明利用一组Namenode集群管理客户端会话,并与分布式数据库交互存取元数据,解决了HDFS的单点故障问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910405408.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





