[发明专利]一种基于应用相似性的超级计算机作业失败主动预测方法有效
申请号: | 202210132077.9 | 申请日: | 2022-02-14 |
公开(公告)号: | CN114169651B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 喻杰;鲜港;杨文祥;周隆放;王昉;王岳青;邓亮;杨志供;赵丹;陈呈;杨超;代喆 | 申请(专利权)人: | 中国空气动力研究与发展中心计算空气动力研究所 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06N20/00;G06K9/62 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 孙杰 |
地址: | 621052 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 应用 相似性 超级 计算机 作业 失败 主动 预测 方法 | ||
本发明公开了一种基于应用相似性的超级计算机作业失败主动预测方法,属于超级计算机领域,包括步骤:S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。本发明挖掘出了能够准确描述作业应用属性的特征,具有很好的预测提升效果;采用机器学习算法寻找作业失败预测方法,提升预测模型的鲁棒性,尤其适应非线性数据;对作业应用属性的聚类方法,显著降低聚类计算开销,降低误差;实现预测效率高,能够实际应用于大型超级计算机。
技术领域
本发明涉及超级计算机领域,更为具体的,涉及一种基于应用相似性的超级计算机作业失败主动预测方法。
背景技术
大量作业在超级计算机中提交并等待执行,但在作业的执行过程中可能会因为各种原因而导致作业失败,比如系统资源无法满足作业需求,内存错误以及软、硬件故障。与此同时,作业失败会造成系统资源浪费、延长排队中作业等待时间等不良影响,采用作业失败预测能够对用于减缓这些失败所造成的影响,因此如何有效预测作业失败对提升系统可靠性和系统资源利用率至关重要。
目前,对于超级计算机(高性能计算系统)的软、硬件故障的预测方法较多,而针对作业失败预测方法研究较为匮乏,并且主要采用一些统计学方法,如线性分析,二次判别分析进行预测作业失败,这类方法的核心思想是尝试寻找作业失败的线性可分关系,但是效果并不理想,因为这些方法需要大量的数据样本,计算效率不高。此外,用于预测失败的特征多为资源、性能属性,这些属性复杂多变,并不能够准确描述作业的应用特征,这也是采用线性分析思想的预测方法并不理想的原因。
发明内容
本发明的目的在于克服现有技术的不足,针对超级计算机现有作业失败预测方法中存在的问题,提供一种基于应用相似性的超级计算机作业失败主动预测方法,挖掘出了能够准确描述作业应用属性的特征,具有很好的预测提升效果;采用机器学习算法寻找作业失败预测方法,提升预测模型的鲁棒性,尤其适应非线性数据;对作业应用属性的聚类方法,显著降低聚类计算开销,降低误差;易于实现,实现预测效率高,能够实际应用于大型超级计算机。
本发明的目的是通过以下方案实现的:
一种基于应用相似性的超级计算机作业失败主动预测方法,包括步骤:
S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;
S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。
进一步地,所述作业路径数据来自于额外监控信息。
进一步地,在步骤S1中所述预处理包括采用聚类预处理。
进一步地,在步骤S2中所述对输入特征数据进行处理包括粗粒度预测处理,将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。
进一步地,在步骤S2中所述对输入特征数据进行处理包括细粒度预测处理,每个用户单独使用机器学习算法构建预测模型,动态选择最优预测模型,以适应不同用户需求。
进一步地,在步骤S1中,在所述预处理后,且作为机器学习算法模型的输入特征前包括过滤子步骤:过滤用户作业,过滤掉对用户而言无意义的作业。
进一步地,所述聚类预处理包括作业名聚类子步骤:
S101,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S102,将所述作业名保留信息中字母全部转换为小写;
S103,基于最长公共子序列算法LCS设计如下作业名相似度算法:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国空气动力研究与发展中心计算空气动力研究所,未经中国空气动力研究与发展中心计算空气动力研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210132077.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理