[发明专利]Hadoop分布式文件系统针对日志型小文件的存储和处理方法有效
| 申请号: | 201510137574.8 | 申请日: | 2015-03-26 |
| 公开(公告)号: | CN104731921B | 公开(公告)日: | 2018-03-30 |
| 发明(设计)人: | 徐锐;刘斌;台宪青 | 申请(专利权)人: | 江苏物联网研究发展中心;北京科电高技术公司;中国科学院国有资产经营有限责任公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 无锡市大为专利商标事务所(普通合伙)32104 | 代理人: | 曹祖良,韩凤 |
| 地址: | 214135 江苏省无锡市新*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | hadoop 分布式 文件系统 针对 日志 文件 存储 处理 方法 | ||
1.Hadoop分布式文件系统针对日志型小文件的存储和处理方法,所述Hadoop分布式文件系统HDFS包括一个Hadoop集群,集群中包含一个名字节点和多个数据节点,多个客户端通过客户端库访问Hadoop集群存储的文件,其特征在于:所述Hadoop集群中的日志型小文件按照物理路径就近合并,客户端读写日志型小文件时先从名字节点读取合并文件和合并文件索引的元数据信息,然后根据合并文件索引从合并文件中读写各个日志型小文件数据;
其中,所述日志型小文件的合并方法为:同一目录下的日志型小文件被合并为一个文件,称为合并文件MergeFile;日志型小文件的元数据被顺序存入一个文件,称为合并文件索引MergeIndex;合并文件与合并文件索引位于原HDFS目录下,采用保留的文件名命名;MergeFile支持追加、修改、删除操作,追加、修改、删除的原子操作单位都是日志型小文件;MergeFile修改过后,MergeIndex也做出对应改变,文件的追加、修改、删除均通过向合并文件索引中追加文件项记录完成;
其中,所述日志型小文件的合并发生于文件写入结束,即,以写方式打开文件后关闭文件时进行文件合并,合并操作分为三类情形:(1)当前写入的文件是新创建的文件,此时文件被追加至合并文件末尾,在合并文件索引文件中同时追加一条记录,记录包括当前文件的文件名、在合并文件中的偏移量、文件大小、文件所属用户、权限、删除标记在内的元数据;(2)当前写入的文件是已经存在的文件,并确有数据修改发生,此时先从MergeFile中删除原文件,再将写入的文件追加至MergeFile;(3)当前写入的文件是已经存在的文件,但是没有数据修改,此时直接抛弃当前文件。
2.根据权利要求1所述的Hadoop分布式文件系统针对日志型小文件的存储和处理方法,其特征在于:HDFS文件中非所述日志型小文件的称为普通HDFS文件,名字节点管理所有HDFS文件的元数据,包括所述普通HDFS文件以及合并文件的元数据,日志型小文件对名字节点是透明的,合并文件对客户端程序是透明的;客户端程序库提供与常规HDFS API一致的接口供客户端程序读写日志型小文件。
3.根据权利要求1所述的Hadoop分布式文件系统针对日志型小文件的存储和处理方法,其特征在于:客户端读写特定路径的文件时,先尝试从名字节点读取文件的元数据信息,如果读取成功则说明该文件是普通HDFS文件,按照HDFS原生处理流程处理,如果读取失败则说明该文件是一个日志型小文件或者该文件不存在,此时需要获取该文件路径父目录下的合并文件索引,并搜索待读写的文件名;如果搜索成功则说明该路径指向一个被合并的文件,读写操作转入合并文件的处理流程,如果搜索失败则说明该路径不存在。
4.根据权利要求3所述的Hadoop分布式文件系统针对日志型小文件的存储和处理方法,其特征在于:客户端程序读取日志型小文件时客户端程序库返回一个与HDFS原生API兼容的文件输入流对象,任何针对该对象的读操作都将重定向至目标文件在合并文件中的对应数据块;该对象确保客户程序不会读取到目标文件数据之外的任何数据。
5.根据权利要求3所述的Hadoop分布式文件系统针对日志型小文件的存储和处理方法,其特征在于:客户端程序写入日志型小文件时,若目标文件已存在于合并文件,客户端库建立一份HDFS文件格式的目标文件数据的副本,返回一个与该副本关联的文件输出流对象,对目标文件的写操作重定向至所述副本;输出流对象被关闭时所述副本被合并至合并文件。
6.根据权利要求1所述的Hadoop分布式文件系统针对日志型小文件的存储和处理方法,其特征在于:删除所述日志型小文件的操作通过向合并文件索引中追加一条墓碑记录完成,日志型小文件的数据在下一次整理合并文件之前都不会被从磁盘清除;墓碑记录中,删除标志位FileDeleted被置为1;在文件搜索过程中删除标志位为1的文件都将被忽略;文件整理操作是根据合并文件索引中的有效项,即排除删除标志位为1的项,重建合并文件的过程;经过文件整理操作后,合并文件和合并文件索引不再包含无效的文件数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏物联网研究发展中心;北京科电高技术公司;中国科学院国有资产经营有限责任公司,未经江苏物联网研究发展中心;北京科电高技术公司;中国科学院国有资产经营有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510137574.8/1.html,转载请声明来源钻瓜专利网。





