[发明专利]文件处理的方法及装置有效
| 申请号: | 201810652326.0 | 申请日: | 2018-06-22 |
| 公开(公告)号: | CN109086307B | 公开(公告)日: | 2020-04-14 |
| 发明(设计)人: | 王玉泼;吴连亮 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/13;G06F9/50 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文件 处理 方法 装置 | ||
本说明书实施例提供一种文件处理的方法和装置,根据该方法,通过起始文件块获取行容量,再根据预设分片行数和行容量确定分界文件块,通过下载分界文件块获取其中的行分隔符,从而至少基于该行分隔符得到对应分片文件的索引数据,用于解析设备根据该索引数据从云存储服务器解析该分片文件,如此提高文件处理的有效性。
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机文件处理的方法和装置。
背景技术
云计算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,通过网络将庞大的计算处理程序拆分成若干较小的子程序,将这些小程序分别交由多台服务器所组成的系统进行计算,并输出计算结果。云存储是在云计算上延伸出来的概念,一般是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量不同类型的存储设备通过应用软件集合在一起,实现协同工作,共同对外提供数据存储和业务访问功能。即云存储系统就是一个以数据存储和管理为核心的云计算系统。云存储系统可以通过一定的应用软件或应用接口,为用户提供一定类型的存储服务和访问服务。
通常,需要解析文件的情况下,例如需要将文件从其他格式解析成内部可以处理的格式时,如果文件较大,往往需要将大文件切割为较小的切片文件,然后由解析设备集群对各个切片文件进行解析。这个过程通常涉及大文件和切割好的切片文件的下载和上传,产生较多耗时。因此,希望能有改进的方案,在解析大文件时,通过有效的文件分割,减少耗时,提高文件处理的有效性。
发明内容
本说明书一个或多个实施例描述了一种方法和装置,可以选择性地下载部分待处理文件,通过确定各个分片文件的索引信息确定待处理文件的划分方案,而无需下载整个文件并真实切割,从而减少耗时,提高文件处理的有效性。
根据第一方面,提供了一种文件处理的方法,适用于通过解析设备集群针对待云存储服务器中的处理文件进行解析的情况,包括:从云存储服务器下载起始文件块,以获取所述待处理文件的首个行分隔符的位置,所述起始文件块是所述待处理文件中从起始位置开始的、包括所述首个行分隔符的文件块;基于所述首个行分隔符的位置确定所述待处理文件的行容量;根据预设分片行数和所述行容量,下载所述待处理文件中的第一分界文件块,所述第一分界文件块包括,当按照所述预设分片行数将所述待处理文件进行划分时,划分得到的多个分片文件中第一分片文件的结束位置的行分隔符;至少基于所述第一分界文件块中的行分隔符的位置,确定所述第一分片文件的第一索引数据,所述第一索引数据包括第一开始索引和第一结束索引,所述第一索引数据用于所述解析设备集群中的解析设备按照所述第一索引数据,从所述云存储服务器解析所述第一分片文件。
在一些实施例中,所述从云存储服务器下载起始文件块包括:从起始位置开始下载预定大小的文件块作为起始文件块,并从所述起始文件块中查找行分隔符;在未查找到行分隔符的情况下,向后增加一个预定大小的文件块以更新所述起始文件块,直到从中查找到首个行分隔符。
在一些实施例中,基于所述首个行分隔符的位置确定所述待分割文件的行容量包括:将所述行容量确定为,所述待处理文件的起始位置至所述首个分隔符的位置所包含的字节数。
在一些实施例中,根据预设分片行数和所述行容量下载所述待处理文件中的第一分界文件块包括:确定所述第一分片文件的文件开始位置;确定所述第一分界文件块的块开始位置为,所述文件开始位置加上分片容量的位置,所述第一分界文件块的大小为一个行容量,其中,所述分片容量为,所述预设分片文件行数与所述行容量的乘积。
在一些实施例中,根据预设分片行数和所述行容量,下载所述待处理文件中的第一分界文件块还包括:下载所述第一分界文件块,并从所述第一分界文件块中查找行分隔符;在未查找到行分隔符的情况下,向后增加一个行容量大小的文件块以更新所述第一分界文件块,并下载更新后的第一分界文件块,直到从中查找到行分隔符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810652326.0/2.html,转载请声明来源钻瓜专利网。





