[发明专利]数据处理方法及装置有效
| 申请号: | 201280004663.X | 申请日: | 2012-12-28 |
| 公开(公告)号: | CN103502957A | 公开(公告)日: | 2014-01-08 |
| 发明(设计)人: | 钟延辉;张宗全 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06F12/02 | 分类号: | G06F12/02;G06F12/08;G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518129 中国广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本发明实施例涉及存储技术,尤其涉及数据处理方法及装置。
背景技术
重复数据删除(简称为重删)也称为智能压缩或单一实例存储,是一种可自动搜索重复数据,将相同数据只保留唯一的一个副本,并使用指向单一副本的指针替换掉其他重复副本,以达到消除冗余数据、降低存储容量需求的存储技术。
现有技术在重复数据删除的方案中,将接收到的数据进行分块得到数据分块,然后将数据分块组成若干的数据分段,使用某种方法计算出每个数据分段的特征值,用计算得到的特征值来代表数据分段。将数据分段的特征值与系统中已经存储的数据的特征值进行匹配,将匹配到的系统中的特征值对应的存储地址指向的存储区域作为相似的存储区域,将相似的存储区域中的数据加载到缓存中,对接收到的数据进行重复数据查询。
发明人在研究中发现,现有的重复数据删除中,例如,第一次接收的数据作为了新数据进行了存储;当第二次接收的数据相对于第一次接收的数据有变化时,会将变化的数据作为新数据单独进行存储;而在第三次接收到与第二次接收的相同数据时,与第三次接收到的数据最相似的数据很可能还是第一次接收的数据,那么相对于第一次所变化的数据,还是会认为变化的数据是新数据并进行存储,而事实上,所述变化的数据已经进了存储,由此可以看出现有技术的重删处理中,存储的数据越多,数据将会分散到的存储区域就越多,而整个重删性能却会下降。
发明内容
本发明实施例提供了数据处理方法和装置,有效提高了存储系统的重删率。
为实现发明目的,本发明实施例第一方面提供了一种数据处理方法,包括:接收数据流,获取代表所述数据流中数据的特征值;
根据设置的索引表查找与每个所述特征值对应的第一存储地址;所述索引表中存储有特征值与所述特征值所代表的数据所在存储地址之间的对应关系;
根据设置的策略从所述第一存储地址中获取n个的第二存储地址,n大于等于1;
当所述第二存储地址的数量超过设置的第一阈值时,将接收到的所述数据流中的数据直接看做新数据存储到存储空间中。
结合第一方面,在第一方面的第一种可能方式,还包括:
当所述第二存储地址的数量没有超过设置的第一阈值时,将所述数据流中数据与所述第二存储地址指向的存储空间中的数据进行比对,查找重复数据。
结合第一方面的第一种可能方式,在第二中可能方式中,所述接收数据流之后,还包括:对所述数据流中数据进行分段获得m个数据分段,其中,m为大于1的整数;
所述将所述数据流中数据与n个所述第二存储地址指向的存储空间中的数据进行比对,查找重复数据,包括:
所述将所述数据流中数据与n个所述第二存储地址指向的存储空间中的数据进行比对,针对任一个所述数据分段,如果所述数据分段中有数据存在于S个不同的所述第二存储地址指向的存储空间中,且S大小超过了设置的第二阈值,则直接将所述数据分段中的所有数据作为新数据存储到存储空间中;其中,S为大于等于1小于n的整数。
结合第一方面的第二种可能方式,第三种可能方式中,所述将所述数据流中数据与所述第二存储地址指向的存储空间中的数据进行比对,查找重复数据,还包括:
针对任一个所述数据分段,如果所述数据分段中有数据存在于S个不同的所述第二存储地址指向的存储空间中,但S大小没有超过设置的第二阈值,则将所述数据分段中没有在n个所述第二存储地址指向的存储空间中查找到的数据看作新数据存储到存储空间中。
结合第一方面或第一方面的第一种或第一种的第二种可能方式,在第四种可能方式中,所述新数据存储到存储空间中,包括:
将新数据存储在缓存的中;选择用于写入缓存中数据的目标存储地址,当满足预设的写入条件时,将所述缓存中的数据写入选择的所述目标存储地址所指向的存储空间中,其中,所述被写入的数据大小和所述目标存储地址指向的存储空间大小相同。
结合第一方面的第四种可能方式,在第五种可能方式中,还包括:在将缓存中的数据写入选择的所述目标存储地址指向的存储空间中时,记录被写入数据的存储空间的数据写入时间;
所述根据设置的选择策略从所述第一存储地址中获取相似的第二存储地址,包括:
统计所述第一存储地址的命中次数,对所有命中的所述第一存储地址进行筛选,所述筛选包括:对命中次数相同的所述第一存储地址,根据记录的所述第一存储地址指向的存储空间中写入数据的时间,选取存入数据时间最晚的所述第一存储地址作为用于选取相似的第二存储地址的对象;根据设置的选择策略从筛选后的所述第一存储地址中选取相似的第二存储地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280004663.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:防水型凸轮开关
- 下一篇:B超导声胶的加热装置





