[发明专利]一种大规模硬盘故障预测领域中的数据预处理算法在审
申请号: | 202011211011.6 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112446420A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 吴琦;王文俊;潘林;焦鹏飞 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 王新爱 |
地址: | 300100*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 硬盘 故障 预测 领域 中的 数据 预处理 算法 | ||
本发明公开了一种大规模硬盘故障预测领域中的数据预处理算法,包括时间序列维度缺失值填充、数据打标建模、数据增强,面对输入的缺失值占比非常庞大的硬盘故障数据,采用SDF算法对数据进行时间序列纬度上的缺失值填充,采用SMART‑GAN模型对少样本进行数据增强操作,当学习给定数据集的分布时,生成性对抗网络显示出强大的通用性。本发明涉及计算机技术领域,该大规模硬盘故障预测领域中的数据预处理算法,通过采用ROZ算法进行数据打标建模,使得ROZ算法可以很好地处理两个连续时间点之间的突变情况,从而有效地增加了模型的区分能力,SDF算法可以有效地处理带有时间序列属性的数据的异常值所带来的数值急剧变化,以及大面积缺失的情况。
技术领域
本发明涉及计算机技术领域,具体为一种大规模硬盘故障预测领域中的数据预处理算法。
背景技术
随着数据中心数据规模的扩大,硬盘在计算机中的应用越来越广泛。然而,硬盘故障在实际情况下经常发生。随着使用时间的增加,硬盘的稳定性和准确性不断下降,对整个基础设施的负面影响是巨大的。基于SMART属性的磁盘故障预测方法主要分为统计方法和机器学习方法,统计方法主要包括秩和检验以及贝叶斯方法。
但是在这三种方法中,使用所有25个属性的支持向量机取得了最佳的预测性能,其FDR为50.6%,然而对于小部分SMART属性,秩和检验优于SVM,在现实生活中,由于系统故障或磁盘老化等原因,它往往不能令人满意,数据集中有许多缺失的值,这对我们的模型和特性有严重的影响,磁盘虽然不会立即失效,但是随着长时间的小错误累积,磁盘会出现故障,然而,当我们使用二元分类法时,不可避免地会发生突变,如果直接使用发生故障的磁盘的历史数据,而忽略两个连续时间点之间的突变,则模型会与正数据和负数据混淆,将少数样本进行GAN的data augmentation操作,并且由于磁盘故障预测再另一方面同样是一个样本极其不均衡数据,少的样本在整体样本中所占的比例相当之小。
发明内容
针对现有技术的不足,本发明提供了一种大规模硬盘故障预测领域中的数据预处理算法,解决了由于系统故障或磁盘老化等原因,它往往不能令人满意,数据集中有许多缺失的值,磁盘虽然不会立即失效,但是随着长时间的小错误累积,磁盘会出现故障,当使用二元分类法时,不可避免地会发生突变,如果直接使用发生故障的磁盘的历史数据,而忽略两个连续时间点之间的突变,则模型会与正数据和负数据混淆,将少数样本进行GAN的dataaugmentation操作,并且由于磁盘故障预测再另一方面同样是一个样本极其不均衡数据,少的样本在整体样本中所占的比例相当之小的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种大规模硬盘故障预测领域中的数据预处理算法,包括以下步骤:
S1、时间序列维度缺失值填充:面对输入的缺失值占比非常庞大的硬盘故障数据,采用SDF算法对数据进行时间序列纬度上的缺失值填充,其数学形式是逐次以三次曲线的极小点逼近寻求函数f(t)的极小点,令t1t2,在搜索区间[t1,t2]中以拟合f(t),使满足(i=1,2)(此式记为(1)式)对求导并令其等于零,求得在[t1,t2]中由a0,a1,a2和a3表示的极小点表达式,再由方程组(1)解得a0,a1,a2和a3;
S2、数据打标建模:采用ROZ算法进行数据打标建模,其算法形式如下所示:
输入:磁盘D的历史数据;
输出:经过筛选的磁盘历史数据;
1:只加载失败磁盘的最后一天数据Dpositive;
2:加载没有失败的磁盘的历史数据;
3:连接两个数据Dncaatite和Dpositiue,训练一个模型模型goz;
4:加载在最后一天Dpositisc历史失败的磁盘的历史数据;
5:sct有一个阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211011.6/2.html,转载请声明来源钻瓜专利网。