[发明专利]一种大规模硬盘故障预测领域中的数据预处理算法在审

申请号：	202011211011.6	申请日：	2020-11-03
公开（公告）号：	CN112446420A	公开（公告）日：	2021-03-05
发明（设计）人：	吴琦;王文俊;潘林;焦鹏飞	申请（专利权）人：	天津大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京权智天下知识产权代理事务所(普通合伙) 11638	代理人：	王新爱
地址：	300100***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种大规模硬盘故障预测领域中的数据预处理算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于，包括以下步骤：

S1、时间序列维度缺失值填充：面对输入的缺失值占比非常庞大的硬盘故障数据，采用SDF算法对数据进行时间序列纬度上的缺失值填充，其数学形式是逐次以三次曲线的极小点逼近寻求函数f(t)的极小点，令t1t2，在搜索区间[t1，t2]中以拟合f(t)，使满足(此式记为(1)式)对求导并令其等于零，求得在[t1，t2]中由a0，a1，a2和a3表示的极小点表达式，再由方程组(1)解得a0，a1，a2和a3；

S2、数据打标建模：采用ROZ算法进行数据打标建模，其算法形式如下所示：

输入：磁盘D的历史数据；

输出：经过筛选的磁盘历史数据；

1：只加载失败磁盘的最后一天数据Dpositive；

2：加载没有失败的磁盘的历史数据；

3：连接两个数据Dncaatite和Dpositiue，训练一个模型模型goz；

4：加载在最后一天Dpositisc历史失败的磁盘的历史数据；

5：sct有一个阈值；

6：for i-0 to length(Dpositie_history)do；

7：pi＝Modelnoz(Dpositinc历史)；

8：如果p阈值，则Labelpi；

9：clscteailire_hiatory＝1标签pitivs_hintory0；

10：如果结束了；

11：将标签1和Dnceatine的Dpositiue history连接为D；

12：输出D；

S3、数据增强：采用SMART-GAN模型对少样本进行数据增强操作，当学习给定数据集的分布时，生成性对抗网络显示出强大的通用性，GAN的基本优化过程由两个相互作用的网络组成，第一种类型称为生成器，它使用随机向量作为输入，并生成尽可能接近实际数据集的样本分布，第二个称为鉴别器，试图将实际数据集与生成的样本区分开。

2.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤S1中，SDF是以三次样条函数为基础的，三次样条曲线是由三阶多项式通过一组m个控制点构成的样条曲线。

3.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤S1中，将方程组(1)解得a0，a1，a2和a3的数值代入表达式中，使得f(t)的近似极小点，然后逐次迭代。

4.根据权利要求3所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述在近似极小点处的导数值的绝对值小于某给定误差时，迭代停止，即可到一个合理的缺失值填充后的数据集。

5.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤S2中，将故障日定义为正标签，其他没有故障的磁盘定义为负标签，训练一个模型来定义“失败”，并使用模型在故障发生的那一天给未标记的数据一个标签，这个标签包含正标签和负标签。

6.根据权利要求5所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述正标签和负标签操作完成后，删除磁盘出现故障的所有负片部分，即可得到具有明显区分程度的正负样本。

7.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤S3的SMART-GAN模型中，GAN模型通过生成器和判别器的不断迭代，互相博弈进化，使其趋于稳定，然后得到同假样本分布相近的大量假样本。

8.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤S3中，在收敛时，理想情况下，期望生成器生成与实际数据集分布相同的样本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011211011.6/1.html，转载请声明来源钻瓜专利网。

上一篇：分离异丙醇-乙酸异丙酯混合物的装置及方法
下一篇：一种学前美术用美工刀具的安全防护装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种大规模硬盘故障预测领域中的数据预处理算法在审

专利文献下载