[发明专利]文件处理方法、装置及系统在审
| 申请号: | 202011425406.6 | 申请日: | 2020-12-08 |
| 公开(公告)号: | CN112506869A | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 张艳明;陈震宇;刘国华 | 申请(专利权)人: | 中国邮政储蓄银行股份有限公司 |
| 主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/182;G06F16/28 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 李静茹 |
| 地址: | 100032*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文件 处理 方法 装置 系统 | ||
本发明公开了一种文件处理方法、装置及系统。其中,该方法应用于分布式处理集群的处理节点,该方法包括:获取待拆分文件,以及待拆分文件对应的拆分规则,其中,待拆分文件包含多个字段;识别待拆分文件中的多个字段;将多个字段与拆分规则进行匹配,确定多个字段中的拆分字段;基于拆分字段对待拆分文件进行拆分,得到多个子文件。本发明解决了相关技术中文件处理方法对文件进行拆分的拆分较低的技术问题。
技术领域
本发明涉及文件处理领域,具体而言,涉及一种文件处理方法、装置及系统。
背景技术
在银行业等存在总分机构的系统架构中,存在将整体文件拆分成一个或多个子文件的需求。相关技术中,Linux操作系统提供split命令对文件均等大小的串行拆分,但是,拆分效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文件处理方法、装置及系统,以至少解决相关技术中文件处理方法对文件进行拆分的拆分效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种文件处理方法,该方法应用于分布式处理集群的处理节点,其中,该方法包括:获取待拆分文件,以及待拆分文件对应的拆分规则,其中,待拆分文件包含多个字段;识别待拆分文件中的多个字段;将多个字段与拆分规则进行匹配,确定多个字段中的拆分字段;基于拆分字段对待拆分文件进行拆分,得到多个子文件。
可选地,将多个字段与拆分规则进行匹配,确定多个字段中的拆分字段,包括:基于拆分规则,生成正则表达式;将多个字段与正则表达式进行匹配;确定与正则表达式匹配成功的字段为拆分字段。
可选地,在基于拆分字段对待拆分文件进行拆分,得到多个子文件之前,该方法还包括:获取数据校验规则,以及待拆分文件中拆分字段对应的数据;基于数据校验规则,对拆分字段对应的数据进行校验;如果校验成功,则基于拆分字段对待拆分文件进行拆分;如果校验失败,则将拆分字段对应的数据存储至错误文件中。
可选地,获取待拆分文件中拆分字段对应的数据包括:逐行读取待拆分文件中的数据;基于拆分字段对应的字段分隔符,确定拆分字段对应的数据。
可选地,在基于拆分字段对待拆分文件进行拆分,得到多个子文件之后,该方法还包括:获取多个子文件的第一数据量,以及错误文件的第二数据量;基于第一数据量和第二数据量,得到拆分字段对应的拆分比率;基于拆分比率,确定目标拆分字段,其中,目标拆分字段用于下一次对待拆分文件进行拆分。
可选地,在拆分字段为多个的情况下,基于多个拆分字段对待拆分文件进行拆分,确定每个拆分字段对应的拆分比率,并确定最高拆分比率对应的拆分字段为目标拆分字段。
可选地,从关系型数据库或分布式存储系统中获取拆分规则。
根据本发明实施例的另一方面,还提供了一种文件处理装置,该装置部署于分布式处理集群的处理节点中,其中,该装置包括:获取模块,用于获取待拆分文件,以及待拆分文件对应的拆分规则,其中,待拆分文件包含多个字段;识别模块,用于识别待拆分文件中的多个字段;匹配模块,用于将多个字段与拆分规则进行匹配,确定多个字段中的拆分字段;拆分模块,用于基于拆分字段对待拆分文件进行拆分,得到多个子文件。
根据本发明实施例的另一方面,还提供了一种文件处理系统,包括:数据库,用于存储待拆分文件对应的拆分规则,其中,待拆分文件包含多个字段;分布式处理集群,与数据库连接,包括处理节点,分布式处理集群用于存储待拆分文件,处理节点用于识别待拆分文件中的多个字段,将多个字段与拆分规则进行匹配,确定多个字段中的拆分字段,并基于拆分字段对待拆分文件进行拆分,得到多个子文件。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述的文件处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国邮政储蓄银行股份有限公司,未经中国邮政储蓄银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011425406.6/2.html,转载请声明来源钻瓜专利网。





