[发明专利]一种面向高性能计算系统故障日志的故障预测方法在审

专利信息
申请号: 202011211555.2 申请日: 2020-11-03
公开(公告)号: CN112306981A 公开(公告)日: 2021-02-02
发明(设计)人: 刘锋;侯晓东;朱肖雄 申请(专利权)人: 广州科泽云天智能科技有限公司
主分类号: G06F16/18 分类号: G06F16/18;G06F16/28;G06F16/2458;G06K9/62;G06N3/04;G06N3/08;G06F17/18
代理公司: 深圳市中科创为专利代理有限公司 44384 代理人: 彭西洋;梁炎芳
地址: 511457 广东省广州市南*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 性能 计算 系统故障 日志 故障 预测 方法
【说明书】:

发明公开一种面向高性能计算系统故障日志的故障预测方法,包括以下步骤:获取高性能计算系统的故障日志数据,并根据所述故障日志数据分析获取故障时间序列,其中,所述故障时间序列适用于LSTM模型;采用K‑means算法对上述故障日志数据中包含的故障类型进行聚类处理;基于上述故障时间序列搭建FD‑LSTM模型;基于上述FD‑LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测,并根据系统体系结构对预测结果进行统计分析。本发明通过对故障分类预测,可有效提高高性能计算系统的故障分析精确率,加强及其运维高效性,有效提高了系统的可靠性。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种面向高性能计算系统故障日志的故障预测方法。

背景技术

为了追求更高的模拟精度以及获得更多的计算细节,科学家们越来越依赖高性能计算机来处理空前庞大的数据集和复杂的模拟仿真。高性能计算机从最初的单芯片系统一直发展到拥有成千上万处理器的集群系统(Cluster),实现了飞速发展;而直到目前为止,提高计算机性能的主要手段仍然是增加处理器数,这导致高性能计算机的规模迅速扩大。与此同时,对系统包括软件和硬件应对突发性错误事件的能力,即容错能力也有了更高的要求。特别是处理节点的增加,导致整个系统的平均无故障时间(Mean Time BetweenFailure,简称MTBF)大幅下降,例如,Intel公司为美国能源部研制的ASCI Red系统共有9000多个计算节点,虽然每个计算节点的MTBF都大于10年,但全系统的MTBF仅10小时(尚不含偶发性故障)。而像IBM的BlueGene/L这样处理器数目超过10万的大规模系统,MTBF会降到只有几十分钟甚至更短。

目前大规模的科学与工程计算问题,如空间飞行研究和核物理研究,往往需要连续运行几天甚至是几个月,而很多高性能计算机的MTBF已经变得比运行在该系统上的科学计算应用的执行时间更短。为了解决这一问题,迫切需要提高系统的容错能力。

为了提高系统的容错能力,已经在异常检测和故障预测方面投入了大量的研究工作。对于大规模的计算系统而言,存在一些故障特征,以及针对异常检测的机器学习解决方案,过去的解决方法是通过几个小时的准备时间识别出了逐渐失效的部件的故障,但是大多数故障发生在更短的时间内;因此,现有技术缺乏两个关键方面;首先,即使提前时间很短(以分钟为单位),也需要预测故障以及准确的故障位置,换句话说,针对即将发生的故障的组件(例如某个节点)并及时这样做,以便采取主动的恢复行动(例如作业迁移或隔离不健康的节点)也同样重要;其次,极大规模高性能计算的大规模组件数量给支持向量机(SVM)或主成分分析(PCA)等数据挖掘技术带来了挑战,因为预测必须实时执行,而且必须在实际故障发生之前得到结果。因此,需要新颖的可扩展和优化的数据挖掘解决方案。此外,计算系统生成的非结构化日志的自然语言也引起了两个问题;首先,由于数据缺乏任何结构和标签,传统的机器学习技术在处理数据时受到限制,例如,形成特征向量或分类器是非平凡的;其次,从高维数据中快速推断复杂的模式是不可行的,除非对数据进行处理并提供适当的输入表示。近年来,深度学习在这些方面取得了巨大的进步,尤其是在自然语言理解方面。这激发了在节点故障预测上下文中探索可扩展的无监督深度学习技术的需求。研究人员一致认为,故障预测是有用的,即使不完美,精度有限。假设50%的节点故障被正确预测,而剩下的节点故障被错误预测(假阳性),那么我们就可以避免一半的昂贵的检查点重新启动,这往往需要通过更廉价的进程迁移进行全局协调。

HPC系统在硬件、软件和应用程序层面上遭受各种各样的故障。虽然有些故障是可以检测的并且很明显可以检测到,比如内核恐慌,但是大多数异常都不容易跟踪。哪个组件将会失败,以及它将如何影响系统,目前还不清楚。系统中观察到的异常症状可能反映,也可能不反映确切的根本原因,例如,内核恐慌可能由Lustre文件系统错误或硬件机器检查异常引起。然而,如果通过结合快速数据挖掘技术提前检测到异常模式,那么节点故障、作业流产等不必要的后果可以得到缓解。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州科泽云天智能科技有限公司,未经广州科泽云天智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011211555.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top