[发明专利]一种融合多种机器学习算法的固态硬盘热数据识别方法有效
申请号: | 201710022404.4 | 申请日: | 2017-01-12 |
公开(公告)号: | CN106874213B | 公开(公告)日: | 2020-03-20 |
发明(设计)人: | 王发宽;姚英彪;周杰;陈功 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F12/02 | 分类号: | G06F12/02;G06F3/06;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 多种 机器 学习 算法 固态 硬盘 数据 识别 方法 | ||
本发明公开了一种融合多种机器学习算法的固态硬盘热数据识别方法。本发明首先根据请求的大小采用K‑means均值聚类算法对请求进行聚类,判断该请求是冷数据还是热数据;然后,再根据请求的逻辑页号采用K近邻分类算法对该请求进行分类;最后,如果两种方法的分类结果不一致,根据逻辑页号采用最近邻原则对判定结果进行修正。与传统的冷热数据识别方法相比,采用本发明方法既可以保证较低的内存开销,又可以提高热数据识别的准确性,适用于集成到现有的固态硬盘系统中,提高系统的整体性能。
技术领域
本发明属于固态硬盘数据存储技术领域,尤其涉及一种融合多种机器学习算法的固态硬盘热数据识别方法。
背景技术
近年来,随着固态硬盘SSD(Solid State Disk,SSD)设计技术的不断进步,相比传统的机械硬盘,SSD显示出具有读写速度快、功耗低、体积小、防震抗摔、便于携带等方面的优势,它已经在许多领域开始替代传统机械硬盘。
闪存具有三大特性:1)按页(page)、块(block)、平面(plane)的结构进行组织;提供读、写和擦除3种操作;页是读/写的最小单位;块是擦除的最小单位。2)闪存擦除后只能写一次,即所谓的写前擦除,这造成闪存不能原地更新,否则会带来巨大的开销。3)闪存每个存储单元的编程/擦除(P/E)次数有限,超过擦除次数后该存储单元存储数据不再可靠。隐藏闪存上述特性,使得这些不方便的特性对用户而言透明,在SSD的设计中,一般要提供一个中间软件转换层实现对闪存的管理,称为闪存转换层FTL(Flash TranslationLayer)。
FTL一般由地址映射、垃圾回收和磨损均衡三个模块组成。地址映射负责将来自文件系统的逻辑地址转换为闪存中的物理地址;垃圾回收负责将回收块中的有效数据复制到新的物理块中,将回收块擦除后重新利用;磨损均衡负责保证每个块的磨损速率尽量一致,防止部分块因磨损过快而提前损坏。
为实现高效的垃圾回收,避免在垃圾回收过程中复制过多的有效数据,FTL需要有效地把频繁更新的数据(即热数据)和非频繁更新的数据(即冷数据)分开,即热数据识别。在闪存的数据管理中,一方面,热数据识别技术可以将识别出来的热数据聚集到同一个块中来提高垃圾回收效率,减少垃圾回收的开销;另一方面,热数据识别技术可以将热数据分配到擦除次数较少的块中,防止某些块因为频繁擦除而磨损过快,改善闪存的磨损均衡。因此,热数据识别对提高SSD的性能非常关键。
然而,目前现存的SSD热数据识别方法存在下面两个方面的问题:
(1)内存开销大。目前大部分的热数据识别机制均是采用识别NAND闪存中热数据页的思想,这些机制的核心原理就是给每个页增添一个页访问计数器,在一定时间段内记录与NAND闪存页相对应的逻辑页地址的读写操作次数。如果读写操作次数大于设定的阈值,则该页被判定为热页,否则,则判定为冷页。为每个页设置了一个计数器,这样方式需要消耗大量的内存空间,对内存空间有限的固态硬盘来说,这种方式显然是不太适用的。
(2)准确度低。常用的固态硬盘的冷热数据识别机制包括基于请求大小、访问模式、最近最少使用、布农滤波等方法。这些方法考虑因素比较单一,没能综合考虑负载的局部性特征,热数据识别的准确度不高。此外,布农滤波方法还存在假阳性问题,即将不属于不在集合内的数据错误判定为在集合内。
发明内容
本发明公开了一种融合多种机器学习算法的固态硬盘热数据识别方法,以克服现有方法的上述缺陷。该方法能在较小的内存开销前提下,提高冷热数据识别率。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1、使用K-means聚类根据当前负载大小进行分类;利用K-means聚类算法根据当前待分类的请求的负载大小对数据进行分类,分为C1和C2两类,若当前待分类的请求负载大小属于C1,则判定当前待分类的请求为热数据;反之为冷数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710022404.4/2.html,转载请声明来源钻瓜专利网。