[发明专利]一种快速查找具有相同重复数据删除标识的所有链接文件的方法在审
申请号: | 201310112125.9 | 申请日: | 2013-04-02 |
公开(公告)号: | CN103198119A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 王通;郭鹏 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/38 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 查找 具有 相同 重复 数据 删除 标识 所有 链接 文件 方法 | ||
技术领域
本发明涉及计算机应用技术领域,具体涉及一种快速查找具有相同重复数据删除标识的所有链接文件的方法。
背景技术
进入21世纪以来,随着信息时代的加速,企业数据呈现出爆炸性增长的趋势,特别是移动互联网、物联网和云计算的发展更加剧了数据的爆炸式增长。IDC报告指出,全球数据量每年以60%的速度递增,2010年全球数据量达1.8ZB,2015年将达到8ZB,2020年将达到35ZB,标志着“大数据”时代的到来。数据增长带来如下巨大的问题:成本急剧增加、带宽压力大、耗能问题严重、设备空间占用巨大、靠增加设备无法彻底解决数据量激增的问题等问题,同时,世界所面临的能源问题日益严峻,在高科技的IT领域能源浪费和环保更加引人注目。互联网的广泛使用让大型企业、政府机关、金融机构的信息中心规模日益膨胀,数据交换增加,设备堆积成山,占地面积越来越多,耗电量屡创新高。为实现信息和管理优化,在构建企业信息架构时,更加呼吁绿色的节能技术。节约能源,减少电力消耗,降低系统成本,急需研究面向新兴应用的新型绿色存储技术。在这个大趋势下,重复数据删除技术蕴育而生,重复数据删除技术能够有效地减少用户存储系统中的重复数据,从而为用户节省了存储容量,降低存储成本和管理难度。
现有的查找具有同一重复数据删除标识的所有链接文件方法都必须逐次遍历整个文件系统目录树,并对每一个查找到的文件,获取其标识并进行比较,对于十亿级别文件目录的遍历将耗费大量的时间和资源,在数据重删技术中,按照重删的方法可以分为:文件级重删和块级重删。在文件级的重删方案中,需要对内容重复的文件保存一个副本,并在重复文件所在的路径处建立到这个副本的链接(包含证明文件内容一致的重复数据删除标识,一般是文件内容的哈希值)。当需要快速恢复具有同一文件内容的多个路径下的文件时,如何快速查找到具有相同内容的所有文件链接路径的方法就极为重要。
发明内容
本发明的目的是提供一种快速查找具有相同重复数据删除标识的所有链接文件的方法。
现有的查找具有同一重复数据删除标识的所有链接文件方法都必须逐次遍历整个文件系统目录树,并对每一个查找到的文件,获取其标识并进行比较,对于十亿级别文件目录的遍历将耗费大量的时间和资源。
本发明的目的是按以下方式实现的:
本发明的结构是高性能高并发数据库为中心的方法,该系统体系结构包括:高性能高并发数据库(1),内核钩子模块(2)、遍历接口模块(3)、冗余查找模块(4),内核钩子模块、遍历接口模块、冗余查找模块支持高并发的多进程多线程操作,从而提高系统的整体性能,其中:
高性能高并发数据库(1)是体系结构的核心,负责存放大量的硬链接信息,并支持多进程、多线程高并发访问;
内核钩子模块(2)主要负责建立链接文件时的信息收集及信息存放,支持多线程并发;
遍历接口模块(3)为上层应用程序遍历系统提供调用接口;
冗余查找模块(4)的作用为在高性能高并发数据库(1)中没有所需要的信息时,遍历整个存储系统,进行冗余查找,并将查找到的信息放入高性能高并发数据库(1)中。
本发明的有益效果是:内核钩子模块、遍历接口模块、冗余查找模块支持高并发的多进程多线程操作,从而提高系统的整体性能。冗余查找模块提供了冗余配置,从而提高系统的高可用性。很少需要遍历整个文件系统目录树进行查找,极为高效。
附图说明
图1是传统的查找具有同一标识的所有硬链接路径拓扑图;
图2是快速查找具有相同重复数据文件标识的所有链接文件流程示意图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
正如发明内容中所描述的,本发明体系结构主要包括:高性能高并发数据库(1),内核钩子模块(2)、遍历接口模块(3)、冗余查找模块(4)。
我们提出的基于高性能高并发数据库的快速查找具有一种快速查找具有相同重复数据删除标识的所有链接文件方法以高性能高并发数据库为核心,其特征在于在方法中,内核钩子模块、遍历接口模块、冗余查找模块支持高并发的多进程多线程操作,从而提高系统的整体性能。内核钩子模块、遍历接口模块、冗余查找模块进行冗余配置,从而提高系统的高可用性。如图2所示,本系统体系结构主要包括:高性能高并发数据库(1),内核钩子模块(2)、遍历接口模块(3)、冗余查找模块(4)。
高性能高并发数据库作为此方法的核心,起到信息存储和高速并发查找等作用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310112125.9/2.html,转载请声明来源钻瓜专利网。