[发明专利]一种适用于海量文件的备份方法在审
| 申请号: | 202110208242.X | 申请日: | 2021-02-24 |
| 公开(公告)号: | CN112882866A | 公开(公告)日: | 2021-06-01 |
| 发明(设计)人: | 陈继杰 | 申请(专利权)人: | 上海泰宇信息技术股份有限公司 |
| 主分类号: | G06F11/14 | 分类号: | G06F11/14 |
| 代理公司: | 湖州果得知识产权代理事务所(特殊普通合伙) 33365 | 代理人: | 戴心同 |
| 地址: | 201108 上海市闵*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 适用于 海量 文件 备份 方法 | ||
本发明涉及数据安全领域,具体涉及一种适用于海量文件的备份方法,包括文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。本发明针对大文件和小文件,采用不同的处理方式计算文件改变特征;采用全新的字典模型方式,可以极快速的完成待备份文件的分析和比对。
技术领域
本发明涉及数据安全领域,具体涉及一种适用于海量文件的备份方法。
背景技术
传统海量文件增量/差异备份时,通常会将目标文件和已存储文件进行单条比对,针对千万级数据量的文件,速度非常慢,甚至会出现内存溢出、系统无响应等未知问题。
传统备份方式大多采用文件HASH值的比对方式,因此在进行超大文件和海量文件比对时,对硬件内存要求较高,处理效率低下,且容易出现内存分配错误、内存溢出、系统异常、程序崩溃、程序无响应等异常情况发生。
发明内容
本发明的目的,是为了解决背景技术中的问题,提供一种适用于海量文件的备份方法。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种适用于海量文件的备份方法,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。
作为优选,所述文件分析阶段的具体步骤为:
一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
二、对目标磁盘中待备份文件的特征信息进行分析比对:
(1)生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
1)采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2)将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
3)将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
(2)将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
(3)将备份状态设置为False,表示备份失败;
三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
(1)当Key值一致的情况下,保持当前状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海泰宇信息技术股份有限公司,未经上海泰宇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110208242.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耳科手术扩张装置
- 下一篇:一种基于物联网的智慧工地可视化定位管理系统





