[发明专利]一种小文件合并方法及电子设备在审
申请号: | 201811317734.7 | 申请日: | 2018-11-07 |
公开(公告)号: | CN111159130A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 秦华婵;廖光贤;范云博;陶捷;沈国栋;王宝晗 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/16 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 215163 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 合并 方法 电子设备 | ||
本发明公开了一种小文件合并方法及电子设备,用于提高系统文件的访问效率。其中的小文件合并方法包括:对分布式文件系统HDFS中的文件进行检索,获得多个小文件;从所述多个小文件中确定待合并的至少两个小文件;基于Spark的文件合并工具按照合并策略将所述待合并的至少两个小文件进行合并,其中,所述合并策略用于指示合并后的小文件的大小。
技术领域
本发明涉及大数据技术领域,特别涉及一种小文件合并方法及电子设备。
背景技术
分布式文件系统(Hadoop distributed file system,HDFS)是集群的重要组成部分,由一个管理节点和多个数据节点组成。其中,管理节点将文件系统的元数据存放在内存中,虽然每个小文件所占内存空间较小,但是每个小文件均需占用一个内存块,每个内存块的存储空间约为150字节。那么存储一千万的文件则管理节点对应地存储管理文件系统目录等信息大约需要3G的空间,即存储的文件数目和集群规模会严重受限于管理节点的内存大小。
且HDFS是基于流式访问,即一次写入多次读取的访问方式,这样,HDFS中小文件的访问需要不断地从一个小文件跳转到另外的小文件,随着HDFS中存储的小文件数量的增加,则会降低读写性能,延长访问时间,即系统文件的访问效率较低。
发明内容
本发明实施例提供一种小文件合并方法及电子设备,用于提高系统文件的访问效率。
第一方面,提供了一种小文件合并方法,该小文件合并方法包括:
对分布式文件系统HDFS中的文件进行检索,获得多个小文件;
从所述多个小文件中确定待合并的至少两个小文件;
基于Spark的文件合并工具按照合并策略将所述待合并的至少两个小文件进行合并,其中,所述合并策略用于指示合并后的小文件的大小。
本发明实施例中,如果HDFS中存在多个小文件,则可以将对多个小文件进行合并,通过Spark文件合并工具按照合并策略将多个小文件合并成合并策略指定大小的多个文件,使得HDFS中的文件数量较少,从而提高了读写性能,提高系统文件的访问效率。且可以使得管理HDFS文件的目录变小,节约HDFS管理节点的内存。
可选的,对分布式文件系统HDFS中的文件进行检索,获得多个小文件,包括:
根据输入的文件目录及小文件阈值在所述HDFS中进行检索,获得所述多个小文件,其中,所述小文件的大小小于或等于所述小文件阈值;
或者,
根据输入的Hive表名称在所述HDFS中进行检索,获得所述多个小文件,其中,Hive表用于指示文件系统的元数据存储目录,所述Hive表用于指示HDFS中相同类型的文件。
本发明实施例中,提供了两种检索方式,其中一种由用户指定检索目录即用户输入要检索的文件目录进行检索,更加满足用户的实际需求。另一种则是用户输入系统中存储的Hive表的名称进行检索,由于Hive表能够检索出同种类型的文件,即通过Hive表检索出的小文件是能够合并的,可以直接合并,从而提高了合并效率。
可选的,对分布式文件系统HDFS中的文件进行检索之后,还包括:
判断检索后获得的全部小文件是否为同一类型的文件;
输出为同一类型的多个小文件。
本发明实施例中,在对小文件进行检索之后,需要判断检索后获得的多个小文件是否是同一类型,也就是是否能够合并,对于不能够合并的则可以不输出,只输出能够合并的小文件,输出的小文件数量较少,从而降低了用户确定合并小文件的复杂度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811317734.7/2.html,转载请声明来源钻瓜专利网。