[发明专利]基于多维特征的硬盘故障预测模型建立方法及其应用在审
申请号: | 202110943053.7 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113778766A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 谭支鹏;冯丹;万举;张鑫晏 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F11/22 | 分类号: | G06F11/22;G06K9/62;G06N3/08 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 夏倩;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多维 特征 硬盘 故障 预测 模型 建立 方法 及其 应用 | ||
本发明公开了一种基于多维特征的硬盘故障预测模型建立方法及其应用,属于计算机存储领域,包括:获得特征数据集,其中的每条样本包含硬盘状态、对应的特征数据以及时间;对特征数据集中的样本按时间升序排序后进行样本均衡和标准化,之后按照时间升序的顺序将其划分为训练集和测试集;以硬盘状态为标签信息,利用训练集和测试集对深度学习模型进行训练和测试,得到硬盘故障预测模型;特征数据包括SMART信息、固件版本信息和事件日志信息等,每类信息对应一个或多个数据项,数字类型的数据项取值为累积值。本发明同时利用SMART信息、固件版本信息和系统信息等作为特征数据,并充分考虑数据时序性,能够提高模型的训练效果,最终提高硬盘故障预测的精度。
技术领域
本发明属于计算机存储领域,更具体地,涉及一种基于多维特征的硬盘故障预测模型建立方法及其应用。
背景技术
随着科技发展和生活水平提高,终端设备愈发普及,日常生活与工作都离不开计算机,因而数据安全也受到更多用户重视。作为个人电脑数据存储介质的硬盘一旦出现故障,便会造成巨大的数据损失。因此,对硬盘故障提前预警并告知用户提前备份重要数据是有重大意义的。在通常状态下,硬盘在24小时内出错的概率为万分之一左右,但是在如此庞大的终端设备市场面前,这个错误率将被大幅度放大,而各种五花八门的应用程序也在不断挑战硬盘的性能与稳定性。基于上述原因,需要有一套系统能提前预测硬盘是否会出错,从而告知用户提前备份重要数据。
可能导致硬盘故障的原因有很多,最常见的包括:外部振动、温度与湿度、电子元件损坏等,随着机器学习等代表性的人工智能技术的发展,给硬盘故障预测带来了新的工具,其中,机器学习里的分类算法非常适合解决硬盘故障预测问题。但目前针对硬盘故障预测方向的研究主要面向数据中心、商用存储系统等,尚未有针对终端设备硬盘故障的相关研究。通常针对前者的硬盘故障预测只会使用硬盘SMART信息作为模型训练数据,但由于终端设备的特殊性,除了能提取到SMART信息外,还能采集操作系统层、驱动层等其他相关信息,组成多维度的训练数据,从而提高故障预测效果。
现有的利用多维度的训练数据进行硬盘故障预测的方法,具有较好的预测效果,但是这些方法在训练时,仅考虑了硬盘自身相关的特征,而未未考虑硬盘所在终端设备的系统信息,并且这些方法在训练时,没有充分考虑数据的时序性,因此,预测精度有待进一步提高。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于多维特征的硬盘故障预测模型建立方法及其应用,其目的在于,同时利用硬盘的SMART信息和硬盘所在终端设备的系统信息构成硬盘的特征数据,并在模型训练时充分考虑硬盘数据的时序性,以提高模型的训练效果,最终提高硬盘故障预测的精度。
为实现上述目的,按照本发明的一个方面,提供了一种基于多维特征的硬盘故障预测模型建立方法,包括:
预处理步骤:获得特征数据集,其中的每条样本包含硬盘状态、对应状态下的特征数据以及特征数据的产生时间;特征数据包括SMART信息、固件版本信息和事件日志信息等,每类信息对应一个或多个数据项,每个数字类型的数据项取值为累积值,其他类型的数据项取值为编码后的数值;
数据集划分步骤:对特征数据集中的样本按时间升序排序后进行样本均衡和标准化,之后按照时间升序的顺序将特征数据集划分为训练集和测试集;
模型建立步骤:以样本中的特征数据为输入信息、硬盘状态为标签信息,利用训练集对深度学习模型进行训练,并利用测试集对训练后的深度学习模型进行测试,得到硬盘故障预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110943053.7/2.html,转载请声明来源钻瓜专利网。