[发明专利]基于Ceph存储的小文件合并系统及方法在审
| 申请号: | 202110970392.4 | 申请日: | 2021-08-23 |
| 公开(公告)号: | CN113760190A | 公开(公告)日: | 2021-12-07 |
| 发明(设计)人: | 陈法河;张浩博;雷旸;王梦童;黄亚男;于楠 | 申请(专利权)人: | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) |
| 主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F16/16;G06F16/172;G06F16/182 |
| 代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
| 地址: | 201800 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 ceph 存储 文件 合并 系统 方法 | ||
本发明提供了一种基于Ceph存储的小文件合并系统及方法,涉及分布式数据库相关技术领域,该系统包括:对象存储设备OSD:存储数据文件和元数据文件;元数据服务器:负责管理元数据,内部有缓存空间;客户端:包括文件判别模块、关联性提取模块、文件合并模块和缓存模块,分别对文件进行处理。该方法包括:步骤S1:对小文件进行合并写入操作;步骤S2:对小文件进行读取。本发明能够有效的解决在分布式文件系统中小文件众多、文件合并困难的问题。
技术领域
本发明涉及分布式数据库相关技术领域,具体地,涉及一种基于Ceph存储的小文件合并系统及方法。
背景技术
随着通信技术和超级计算技术的不断发展,越来越多的数据出现在我们生活中,因此高效的存储技术成为当今科学技术发展的重点。目前互联网各行各业迅速发展,社交媒体、教育医疗、电子商务等行业产生了巨大的小文件数据;根据资料统计,社交媒体软件中,微博存储系统中每天保存着超过100亿张照片形式的小文件;作业帮存储系统中保存的文档、课件、日志等小文件超过500TB;腾讯公司的社交APP每天能产生超过100TB的数据文件信息。这些互联网企业保存的海量文件中,绝大多数以浏览日志、缩略图为主。太平洋西北国家实验室研究统计表明,在这些存储系统中,超过一半的文件其大小不超过64KB。传统的存储技术如磁盘阵列技术已经难以满足众多数据的存储需求。集群存储的扩展性被越来越看重并得到了广泛的发展和应用,其中就包括分布式文件系统。
Ceph是一个可靠、自动重均衡、自动恢复的统一的分布式存储系统,根据场景划分可以将Ceph分为三大块,分别是对象存储、块设备和文件系统服务。块设备存储是Ceph的强项。
针对海量小文件存储问题,国内外众多学者进行了很多深入研究,总体分为两种思路:一种是将小文件按照某种规则合并成大文件进行管理;另一种是增加缓存、预取操作来减少相应的小文件访问网络开销。李孟、曹晟等人提出了一种关于应对教育资源小文件的存储方式,该方案介绍了基于关联文件的缓存、预取、以及索引等提高系统访问性能的操作,虽然提高了教育资源类小文件的访问性能,但是仅局限于教育资源类文件的连续性上,如课件之间的逻辑顺序等。
Yuelong Z等人通过实验分析,发现分布式存储系统在处理小文件时,会产生磁盘空间利用率低、文件传输延迟的现象,于是他们将逻辑上连续的文件数据按照顺序放在磁盘空间中,并且将对元数据的管理放在缓存中以缓解柱结构内存不足,通过实验验证该方案提高了对小文件的处理性能。
针对小文件访问性能问题,Bo Dong等人将小文件分为逻辑相关文件、结构相关文件和独立文件几种类别。然后根据不同类别的小文件采取不同的存储方案,例如将逻辑相关的小文件采用分组预取机制,提前预取与目标文件逻辑相关的其他小文件。将结构相关的小文件采用文件合并的方法处理等,经过实验对比,这种处理方式提升了存储系统的访问性能。
公开号为CN105956183B的发明专利,公开了一种分布式数据库中海量小文件的多级优化存储方法及系统,方法包括:分布式数据库的管理节点响应于包括至少一个小文件的小文件输入事件,将所述小文件放入合并队列,将每个合并队列所包括的小文件分别合并后得到合并文件并保存在分布式数据库的工作节点中,所述小文件的文件长度小于预设小文件长度阈值;分布式数据库的管理节点为每个所述合并文件所包括的每个小文件构建索引并保存在分布式数据库的管理节点中;客户端根据所述索引,从所述合并文件中获取所述小文件。
分布式文件系统在面对海量小文件存储时尤其是在面临高并发访问的状态下,会存在元数据瓶颈问题,文件合并是解决此问题的一种常见方法,但现有的合并方法存在未考虑小文件之间的关联性导致小文件分散分布、各自针对自身小文件特点不具有通用性、维护成本高等问题,因此还具有很大的优化空间。
发明内容
针对现有技术中的缺陷,本发明提供一种基于Ceph存储的小文件合并系统及方法。
根据本发明提供的一种基于Ceph存储的小文件合并系统及方法,所述方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东计算技术研究所(中国电子科技集团公司第三十二研究所),未经华东计算技术研究所(中国电子科技集团公司第三十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110970392.4/2.html,转载请声明来源钻瓜专利网。





