[发明专利]文件处理的方法及装置有效

专利信息
申请号: 201810652326.0 申请日: 2018-06-22
公开(公告)号: CN109086307B 公开(公告)日: 2020-04-14
发明(设计)人: 王玉泼;吴连亮 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F16/11 分类号: G06F16/11;G06F16/13;G06F9/50
代理公司: 北京亿腾知识产权代理事务所(普通合伙) 11309 代理人: 陈霁;周良玉
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文件 处理 方法 装置
【权利要求书】:

1.一种文件处理的方法,适用于通过解析设备集群针对云存储服务器中存储的待处理文件进行解析的情况,包括:

从所述云存储服务器下载起始文件块,以获取所述待处理文件的首个行分隔符的位置,所述起始文件块是所述待处理文件中从起始位置开始的、包括所述首个行分隔符的文件块;

基于所述首个行分隔符的位置确定所述待处理文件的行容量;

根据预设分片行数和所述行容量,下载所述待处理文件中的第一分界文件块,所述第一分界文件块包括,当按照所述预设分片行数将所述待处理文件进行划分时,划分得到的多个分片文件中第一分片文件的结束位置的行分隔符;

至少基于所述第一分界文件块中的行分隔符的位置,确定所述第一分片文件的第一索引数据,所述第一索引数据包括第一开始索引和第一结束索引,所述第一索引数据用于所述解析设备集群中的解析设备按照所述第一索引数据,从所述云存储服务器解析所述第一分片文件。

2.根据权利要求1所述的方法,其中,所述从云存储服务器下载起始文件块包括:

从起始位置开始下载预定大小的文件块作为起始文件块,并从所述起始文件块中查找行分隔符;

在未查找到行分隔符的情况下,向后增加一个预定大小的文件块以更新所述起始文件块,直到从中查找到首个行分隔符。

3.根据权利要求1所述的方法,其中,基于所述首个行分隔符的位置确定所述待处理文件的行容量包括:

将所述行容量确定为,所述待处理文件的起始位置至所述首个行分隔符的位置所包含的字节数。

4.根据权利要求1所述的方法,其中,根据预设分片行数和所述行容量,下载所述待处理文件中的第一分界文件块包括:

确定所述第一分片文件的文件开始位置;

确定所述第一分界文件块的块开始位置为,所述文件开始位置加上分片容量的位置,所述第一分界文件块的块结束位置为,所述块开始位置加上一个行容量的位置,其中,所述分片容量为,所述预设分片文件行数与所述行容量的乘积。

5.根据权利要求4所述的方法,其中,根据预设分片行数和所述行容量,下载所述待处理文件中的第一分界文件块还包括:

按照预设分片行数和所述行容量,确定预估的第一分界文件块;

下载所述预估的第一分界文件块,并从所述预估的第一分界文件块中查找行分隔符;

在未查找到行分隔符的情况下,向后增加一个行容量大小的文件块以更新所述预估的第一分界文件块,并下载更新后的第一分界文件块,直到从中查找到行分隔符。

6.根据权利要求4所述的方法,其中确定所述第一分片文件的文件开始位置包括:

在所述第一分片文件是所述待处理文件的第一个分片文件的情况下,将所述待处理文件的所述起始位置作为所述第一分片文件的文件开始位置;

否则,将所述第一分片文件的前一个分片文件的结束位置作为所述文件开始位置。

7.根据权利要求1所述的方法,其中,所述第一分片文件为所述待处理文件的第一个分片文件,

所述确定所述第一分片文件的第一索引数据包括:

确定所述第一开始索指向所述待处理文件的所述起始位置;

确定所述第一结束索引指向所述第一分界文件块中的行分隔符的位置。

8.根据权利要求1所述的方法,其中,所述方法还包括:

获取所述待处理文件的文件大小信息;

基于所述文件大小信息检测所述第一分界文件块是否超出所述待处理文件的文件大小范围;

在超出的情况下,确定最后一个分片文件的所述第一结束索引指向所述待处理文件的结束位置。

9.根据权利要求1所述的方法,其中,所述确定所述第一分片文件的第一索引数据包括:

将所述第一分片文件的前一个分片文件的结束索引作为所述第一开始索引;

确定所述第一结束索引指向所述第一分界文件块中的行分隔符的位置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810652326.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top