[发明专利]小文件处理方法与装置在审
申请号: | 201810396811.6 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108614879A | 公开(公告)日: | 2018-10-02 |
发明(设计)人: | 范洪月;宋文鹏 | 申请(专利权)人: | 众安信息技术服务有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 钟胜光 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 小文件 哈希 数据库 映射信息 文件组 缓存 小文件存储 查找效率 缓存占用 数据量 索引 写入 存储 压缩 | ||
本发明公开了小文件处理方法与装置。小文件写入方法,包括:基于小文件的内容来确定所述小文件的哈希信息;如果数据库中并未包括所述小文件的哈希信息,则将所述小文件存储到所述数据库中指定的文件组中,并确定所述小文件与所述文件组之间的映射信息;以及将所述哈希信息和所述映射信息存储到所述数据库中。通过本发明的技术方案,可以有效压缩索引在缓存中的数据量,大大减少缓存占用率,同时提高查找效率。
技术领域
本发明属于计算机领域,尤其涉及一种能够应用在云存储中的有效处理小文件索引缓存的方法与装置。
背景技术
云存储是一种新兴网络存储技术,通过集群应用、网络技术以及分布式文件系统等功能,将互联网海量数据分布式存储并提供高可靠性、高可用性的服务。
关于小文件的存储,在文件系统中针对每一个文件会建立相应的索引,如果小文件的数量过多,将导致文件系统性能变差,以及难以维护,小文件的查找与读取速度极度降低,因此,为了解决这类问题在云存储中引入了一种小文件合并的技术,及将数量庞大的小文件合并为一个大文件(文件大小通常在几十兆,甚至几个G不等),通过应用层来控制小文件的快速查找、读取、整理,以提高小文件的处理速度、强化小文件的管理。
发明内容
本发明针对当前小文件存取效率低,占用空间大的问题,提出了通过改变小文件数据存储结构来实现的小文件写入和读取的方法。
本发明的一方面提出了一种小文件的写入方法,其包括:基于小文件的内容来确定所述小文件的哈希信息;如果数据库中并未包括所述小文件的哈希信息,则将所述小文件存储到所述数据库中指定的文件组中,并确定所述小文件与所述文件组之间的映射信息;以及将所述哈希信息和所述映射信息存储到所述数据库中。
本发明的另一方面提出了一种小文件的读取方法,其包括:基于小文件的哈希信息,在缓存中确定是否已经存在所述小文件;如果所述小文件已经存在于所述缓存中,则根据所述哈希信息来确定所述小文件的映射信息,如果所述小文件并未存在于所述缓存中,则基于所述哈希信息在数据库中确定所述小文件的映射信息,基于所述映射信息来读取所述小文件。
本发明还提出了一种小文件处理装置,包括:处理器;以及存储器,其用于存储指令,当所述指令在执行时使得所述处理器执行前述的小文件写入和/或读取的方法。
本发明还提出了一种计算机可读存储介质,具有存储在其上的计算机可读程序指令,其特征在于,当所述指令被执行时,执行前述的小文件写入和/或读取的方法。
相较于传统方法,通过本发明的技术方案,可以有效压缩索引在缓存中的数据量,大大减少缓存占用率,同时提高查找效率。另外,通过使用LevelDB作为缓存索引的落地存储,可以提高可靠性。再者,使用小文件的Hash值作为key存储,可以在数据读取时选择性校验数据是否被篡改,提高数据安全性,并且防止重复数据上传。
附图说明
参考附图示出并阐明实施例。这些附图用于阐明基本原理,从而仅仅示出了对于理解基本原理必要的方面。这些附图不是按比例的。在附图中,相同的附图标记表示相似的特征。
图1为传统技术中的字典树结构图;
图2为依据本发明实施例的数据存储结构示意图;
图3a为依据本发明实施例的小文件写入方法流程图;
图3b为依据本发明实施例的小文件的前缀树示意图;
图3c为依据本发明实施例的小文件的存储示意图;
图4为依据本发明实施例的小文件读取方法的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于众安信息技术服务有限公司,未经众安信息技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810396811.6/2.html,转载请声明来源钻瓜专利网。