[发明专利]基于iSCSI的重复数据删除方法无效
| 申请号: | 201110075210.3 | 申请日: | 2011-03-28 |
| 公开(公告)号: | CN102185889A | 公开(公告)日: | 2011-09-14 |
| 发明(设计)人: | 肖达;谭乐娟;姚文斌;王枞;陈钊;韩司 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 iscsi 重复 数据 删除 方法 | ||
技术领域
本发明属于计算机信息存储技术领域,具体涉及一种基于iSCSI的重复数据删除方法,适用于基于iSCSI协议的IP网络远程镜像系统。
背景技术
IP网络远程镜像系统在灾备系统中得到了广泛的应用。该系统基于iSCSI协议,通过IP网络把SCSI数据和命令传给灾备中心,以实现本地镜像和远程镜像的一致性。该系统不需要搭建专用网络,大大的减少了灾备系统搭建的成本,也使得系统具有良好的可扩展性,只要能接入到IP网络的地方就可以使用该服务。
随着数字信息的爆炸式增长,灾备系统中所存储的数据规模越来越大。研究发现,应用系统所保存的数据中高达60%是冗余的,而且随着时间的推移越来越多。如果不进行处理,这些冗余数据在存储到网络的过程中将占据大量的网络带宽。这对本就已经十分紧张的网络带宽资源来说无疑是非常致命的。同时海量数据传输所带来的难以忍受的时延,也严重影响了用户体验。因此,为了减轻IP网络的承载负担,减少备份带宽需求,加快备份速度,节省备份时间,可以先通过对要备份的数据进行重复数据删除再传给灾备中心,再在灾备中心将数据恢复过来。
为了不改变现有的IP网络远程镜像系统的结构,保护已有投资,要求在保证传输透明性的前提下实现重复数据删除,即只能通过对截获的iSCSI数据包进行重复数据删除而不是对一个完整的文件。而已有的一些重复数据删除方案,比如rsync,LBFS,TAPER等,都是针对文件进行删重的,并不适用于这类情况。因此,需要设计一个基于iSCSI的重复数据删除方法,使之可以针对iSCSI数据块来进行删重,并在远程镜像实现数据重构。
常用的重复数据删除技术主要分为以下两大类:
(1)相同数据检测技术:相同数据主要包括相同文件及相同数据块两个层次。相同文件(WFD:WholeFile Detection)主要通过hash技术进行挖掘;细粒度的相同数据块主要通过固定分块检测技术(FSP:Fixed-sized Partition)、可变分块检测技术(CDC:Content-defined Chunking)及滑动块技术(SlidingBlock)进行重复数据的查找与删除。
(2)相似数据检测技术:利用数据自身的相似性特点,通过shingle技术、bloom filter技术和模式匹配技术能够挖掘出相同数据检测技术不能识别的重复数据,使存储空间和网络带宽的占用大幅缩减。
由于相同数据检测技术和相似数据检测技术对重复数据查找和匹配的精度不同,对删重效果与增加系统额外开销的影响也不同,因此有效地综合这两种技术的特性,可以尽可能多地消除重复数据,使系统中实际存储的数据或通过网络传送的数据以几何级别递减,大幅削减传输成本。先由粗粒度的相似文件检测找到与要删重的数据最相似的数据,再对该最相似数据采用细粒度的相同数据检测算法进行删重。
不同的算法有各自的特点和应用环境,可以根据应用的需要灵活进行选择。对于相同文件检测,定长分块算法实现比较简单,便于定位,但对于有些情况,比如文件插入操作,就不能很好的找到重复数据;变长分块则相反,实现比较复杂,不好定位,但能比较好的处理插入操作,使得只有插入位置附近的块受到影响,但对文件间小的随机改变检测效果不理想;滑动块技术结合了固定块大小检测技术和可变块大小检测技术的优点,块大小固定,管理简单。大的簇,CDC的重复数据检测性能较好,而滑动块技术对细粒度匹配更适用。相似块检测的shingle算法需要先提取文件的特征集,再求两个文件的相似度,但计算开销和存储开销比较大;而bloom filter算法用集合来表征文件特征,计算和存储开销比shingle小很多,但要求比较的对象必须构造相同长度的filter值,而对于文件大小差异较大的文件组则不方便选取合适的filter长度进行比较,太小了则误判率会很高,太大了则开销会很大。
总之,在满足传输透明性的前提下,如何有效的结合这两种技术来实现基于iSCSI的重复数据删除,以及它们分别应该采用什么算法,是本发明需要解决的关键问题。
发明内容
本发明提出了一种基于iSCSI的重复数据删除方法,适用于基于iSCSI协议的IP网络远程镜像系统。该方法的应用可以在不改变原系统的结构的前提下,针对iSCSI数据包里的写数据块进行重复数据删除,再在远程接收方重构数据,极大的减少了传输所需带宽和传输时延。
该方法的具体步骤为:
A.截获:通过iSCSI目标器截获发送端的iSCSI写数据包,并过滤掉小数据块不对其进行删重处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110075210.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





