[发明专利]一种面向高性能计算系统故障日志的故障预测方法在审
| 申请号: | 202011211555.2 | 申请日: | 2020-11-03 |
| 公开(公告)号: | CN112306981A | 公开(公告)日: | 2021-02-02 |
| 发明(设计)人: | 刘锋;侯晓东;朱肖雄 | 申请(专利权)人: | 广州科泽云天智能科技有限公司 |
| 主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/28;G06F16/2458;G06K9/62;G06N3/04;G06N3/08;G06F17/18 |
| 代理公司: | 深圳市中科创为专利代理有限公司 44384 | 代理人: | 彭西洋;梁炎芳 |
| 地址: | 511457 广东省广州市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 性能 计算 系统故障 日志 故障 预测 方法 | ||
1.一种面向高性能计算系统故障日志的故障预测方法,其特征在于,包括以下步骤:
步骤S1,获取高性能计算系统的故障日志数据,并根据所述故障日志数据分析获取故障时间序列,其中,所述故障时间序列适用于LSTM模型;
步骤S2,采用K-means算法对上述故障日志数据中包含的故障类型进行聚类处理;
步骤S3,基于上述故障时间序列搭建FD-LSTM模型;
步骤S4,基于上述FD-LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测,并根据系统体系结构对预测结果进行统计分析。
2.根据权利要求1所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述步骤S1的具体实现方式包括以下步骤:
步骤S101,获取高性能计算系统的故障日志数据,并根据该故障日志数据分析获取时间数据集;
步骤S102,将故障发生的第一时间作为LSTM模型的时间序列索引,并根据该时间序列索引对上述时间数据集中的数据按先后顺序进行排序;
步骤S103,按时间先后顺序计算上述时间数据集中相邻故障发生的间隔时间数,并保存为time-interval列;
步骤S104,对上述间隔时间数进行分析处理,并去掉时间间隔过大的异常数据;
步骤S105,统计分析所述计算系统的节点的故障分布状况;其中,如果故障主要集中分布在某个节点,说明故障分布极不均匀,需单独考虑该节点的故障预测,其余节点再进行故障预测;而如果故障分布较为均匀,则可以使用LSTM模型进行故障预测。
3.根据权利要求2所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述步骤S2的具体实现方式包括以下步骤:
步骤S201,根据手肘法确定k值,其中,误差平方差和SSE的公式为:Ci为第i个簇,p为Ci中的样本点,mi为Ci的质心,SSE是所有样本的聚类误差,代表了聚类效果的好坏;
步骤S202,从上述时间数据集中随机选择k个数据点作为质心;
步骤S203,计算上述时间数据集中每一数据点与每一质心的距离,并将每一数据点划分到与其距离最小的质心所属的集合中,从而获得k个集合;
步骤S204,重新计算上述k个集合中每一集合的质心;
步骤S205,判断所述步骤S204重新计算的质心与原先的质心之间的距离是否小于设定值,其中,如果重新计算出来的质心与原先的质心之间的距离大于或等于某一设定的阈值,则需要跳转回步骤S203,反之,说明重新计算出来的质心的位置变化不大,趋于稳定,或者说收敛,可以认为聚类处理已经达到期望的结果,K-means算法终止。
4.根据权利要求2所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述步骤S3中的FD-LSTM模型包括输入层、隐藏层、输出层、以及分别与所述输入层、隐藏层和输出层通过网络连接的网络训练模块;所述输入层用于对原始故障时间序列进行初步处理,包括划分时间数据集,通过所述输入层分割上述时间数据集得到新的故障时间序列X1、X2~Xt以满足网络输入要求;所述输出层用于提供预测结果P1、P2~Pt,且所述输出层内嵌有网络预测模块,所述网络预测模块采用迭代的方式对预测结果进行反标准化预测以获取与测试集所对应的故障发生时间或节点位置;所述网络训练模块采用Adam优化算法计算模型输出与理论输出的损失,并采用BPTT算法进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州科泽云天智能科技有限公司,未经广州科泽云天智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211555.2/1.html,转载请声明来源钻瓜专利网。





