[发明专利]一种小样本硬盘故障数据生成方法、存储介质及计算设备在审
| 申请号: | 202011290978.8 | 申请日: | 2020-11-17 |
| 公开(公告)号: | CN112434733A | 公开(公告)日: | 2021-03-02 |
| 发明(设计)人: | 董小社;王宇菲;王龙翔;王强;李博闻;陈维多;张兴军;伍卫国 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06F11/22 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
| 地址: | 710049 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 样本 硬盘 故障 数据 生成 方法 存储 介质 计算 设备 | ||
本发明公开了一种小样本硬盘故障数据生成方法、存储介质及计算设备,基于长短期记忆网络作为生成对抗网络的生成网络,对硬盘SMART数据进行学习,对长短期记忆网络的梯度进行调整并生成用于对抗训练的虚拟硬盘故障数据;对生成的虚拟硬盘故障数据进行甄别,将真实的硬盘故障数据作为训练样本数据集;交替计算生成对抗网络中生成网络G和判别网络D的梯度并调整至收敛,完成小样本硬盘故障数据训练,训练完成后,加载模型中的生成网络G,将初始随机向量传给生成网络G,生成网络G生成虚拟硬盘故障数据。本发明能够有效地生成符合真实硬盘故障数据特点的虚拟硬盘故障数据,扩充硬盘故障数据样本集,提高机器学习算法识别硬盘故障的准确率。
技术领域
本发明属于存储系统可靠性与可用性技术领域,具体涉及一种基于生成对抗网络的小样本硬盘故障数据生成方法、存储介质及计算设备。
背景技术
如今随着电子信息技术的发展,海量数据涌入人们的生活,各大公司数据中心的存储规模出现了爆炸性的增长,全球的数据总量也以每年50%的速度快速增长。预计到2025年,全球数据规模将达到163ZB,相当于2016年16ZB的十倍,而且未来5~10年,存储市场将会继续稳定的增长。
随着云计算技术的日趋成熟,个人和企业大量数据的存储模式也由线下存储逐渐转变为云端存储,而这些云端数据集中存储在专业的数据中心里。因此近些年数据中心的数据存储量正在飞速上升,仓储式的数据中心结构也逐渐被企业接受。
诸如阿里巴巴、亚马逊、谷歌、微软等公司,为了给用户提供更好的存储服务,其数据中心往往采用机械硬盘(HDD)和固态硬盘(SSD)共同构成的混合存储结构。在这种规模的数据中心里,无论是HDD或SSD,各种存储设备经常出现故障,确保IT管理的高可用性和可靠性是一项极具挑战的任务。数据中心往往会采用某些数据保护机制,如副本或纠删码,如果硬盘故障超出了现有的数据保护能力,无法恢复丢失的数据,出现永久性数据丢失,从而导致系统无法使用,这对于数据中心来说是灾难性的。HDD由各种各样的磁性、机械和电子部件组成,是一种相当复杂的设备,每一个部件都可能失效。SSD往往只有有限的使用寿命,失效也是在所难免的。因此,由于多种原因,HDD和SSD会出现不同严重程度、不同表现形式的故障。
与传统的被动容错技术如纠删码和独立磁盘冗余阵列(RAID)相比,主动地故障识别技术往往能够提前保证大规模存储系统的可靠性和可用性。因此,成功的故障预测能有效降低数据丢失的风险。为了提高预测性能,不少研究基于机器学习算法和SMART数据构建磁盘故障识别模型。不幸的是,这些工作的前提是需要足够多的硬盘数据才能进行模型训练。然而,在数据中心建立初期或新部署了一批存储设备时,能够获取到的硬盘可靠性数据较为有限,而故障数据更是少之又少。由于样本量太少并且数据也不足,传统机器学习算法使用少量训练数据将极大地增加过拟合或弱泛化能力的风险,这将削弱模型的性能,严重影响存储系统的可靠性。
为了获取到足够的故障数据来训练模型,可以考虑采用一些数据合成与扩展的方法。但是简单模拟出的故障数据与真实故障数据可能存在很大的偏差,这并不是理想中的故障数据。因此,在数据量不足的情况下,构建硬盘故障识别模型需要一个能有效生成故障数据的方法作为基础。
目前国内外对硬盘故障检测的研究都需要基于大量的数据,一般都没有考虑小样本情况下的硬盘故障检测,这样在数据中心建立初期或新部署了一批存储设备时,能够获取到的硬盘可靠性数据较为有限,而故障数据更是少之又少的情况下,硬盘故障检测准确率很难保证。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于生成对抗网络的小样本硬盘故障数据生成方法、存储介质及计算设备,收集硬盘的SMART数据,在硬盘故障数据不足的情况下,通过生成虚拟故障数据,提高机器学习算法的识别准确率。
本发明采用以下技术方案:
一种小样本硬盘故障数据生成方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011290978.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





