[发明专利]针对云存储系统中重复冗余数据的高效去重方法有效
申请号: | 201510848801.8 | 申请日: | 2015-11-27 |
公开(公告)号: | CN105487818B | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 张广艳;杨松霖;舒继武;郑纬民 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 冗余数据 数据服务器 去重 云存储系统 数据路由 元数据服务器 特征指纹 客户端 集群 重复 负载均衡策略 数据管理 磁盘使用率 高效快速 接收用户 路由策略 路由节点 匹配确定 系统特性 相似指纹 选择请求 上传 客户 | ||
1.一种针对云存储系统中重复冗余数据的高效去重方法,其特征在于,所述系统包括多个数据存储服务器组成的集群以及多个客户端,其中,所述多个数据存储服务器组成的集群包括由多个数据服务器组成的数据服务器集群和一个元数据服务器,所述方法包括以下步骤:
S1:所述多个客户端接收用户的上传数据,将所述数据组织成数据超块以作为数据路由单位,并提取其中的数据路由特征指纹,用于数据路由选择;
S2:所述元数据服务器与数据服务器集群根据路由策略来处理所述多个客户端的数据路由选择请求,其中,所述数据服务器集群对所述数据路由特征指纹进行相似指纹匹配以确定相似路由节点,所述元数据服务器根据负载均衡策略确定最终的数据路由地址;
S3:确定数据路由地址后,所述客户端与相应的数据服务器进行交互,以将相似冗余数据发送至选择的数据服务器,所述选择的数据服务器在接收到相似冗余数据后,在线对冗余数据进行快速去重。
2.根据权利要求1所述的针对云存储系统中重复冗余数据的高效去重方法,其特征在于,根据局部相似路由算法生成所述路由策略。
3.根据权利要求1所述的针对云存储系统中重复冗余数据的高效去重方法,其特征在于,所述步骤S2进一步包括:
在上传数据时,每个客户端对所述数据超块进行逻辑划分,生成多个数据段,并根据采样策略对每个数据段进行指纹采样,以获取数据路由特征指纹;
所述客户端与集群中的各数据服务器进行指纹数据交互,通过查询相似索引表确定各数据服务器的匹配信息;
所述客户端与元数据服务器进行通信,根据所述各数据服务器的匹配信息与集群中选择的路由节点使用情况,确定最终的数据路由地址。
4.根据权利要求3所述的针对云存储系统中重复冗余数据的高效去重方法,其特征在于,所述各数据服务器的匹配信息包括每个数据服务器的匹配成功的指纹个数。
5.根据权利要求3所述的针对云存储系统中重复冗余数据的高效去重方法,其特征在于,所述采样策略是基于布罗德最小独立置换原理,对每个数据段进行指纹采样,并获取数据路由特征指纹。
6.根据权利要求1所述的针对云存储系统中重复冗余数据的高效去重方法,其特征在于,所述步骤S3进一步包括:
所述数据服务器在接收到客户端发送的存储请求时,启动相应的数据处理线程,对到达的数据超块进行处理;
所述数据服务器在接收数据时,根据数据路由特征指纹将相似容器元数据加载到内存的相似索引查找子集,并与到达的数据超块进行数据冗余匹配;
如果未匹配到相似的数据超块,则结合热点索引库进一步地进行数据去重处理。
7.根据权利要求6所述的针对云存储系统中重复冗余数据的高效去重方法,其特征在于,其中,所述数据服务器集群根据系统缓存中相似冗余数据的访问频率异步更新所述热点索引库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510848801.8/1.html,转载请声明来源钻瓜专利网。