[发明专利]一种计算机系统故障诊断决策及处理方法无效
申请号: | 201210129006.X | 申请日: | 2012-04-28 |
公开(公告)号: | CN102662788A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 乔英良 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算机系统 故障诊断 决策 处理 方法 | ||
技术领域
本发明涉及计算机故障管理领域,具体涉及一种计算机系统故障诊断、决策计划及处理的方法。
技术背景
在科学计算、商用服务、政府职能等领域,各种服务器、存储等计算机系统均起着神经枢纽的作用,一旦出现故障,轻则导致服务中断、设备故障,重则危及到国家和人民生命和财产的安全。用户在追求系统高性能、高容量、高密度等指标的同时,更看重的是系统的可靠性和稳定性,在此需求的推动下,各种各样的故障管理、容错管理技术应运而生。目前国际上高端计算机系统从底层的硬件到顶层的应用软件,大都采用了多种类型的故障管理技术,例如HP公司的Superdome服务器和IBM的Z系列服务器,全面地采用了故障检测与校正机制、错误恢复功能、硬件故障隔离等故障管理能力。
然而,现有的故障管理方法和策略大都是静态部署的,即一旦系统当中发生了某种类型的故障,系统会按照一种固定的模式进行故障检测、进行故障定位、故障隔离、系统重构等工作,这些策略都是在系统部署时就已经确定下来的,系统在运行过程中很难改变。
实际上,由于高端计算机系统自身架构的复杂性,加之被部署的网络环境及其上运行应用的复杂性,随着系统的运行,系统中的可用资源会发生很大的变化,外部环境也会发生较复杂的变化,固定模式的故障处理策略很难满足容错计算机在复杂环境下的长时间运行。因此,系统的故障处理策略需要能够动态的、自适应的变化,以尽可能适应系统状态的变化和外部环境的变化。因此,在现有计算机故障管理领域,在现有故障处理理论的基础之上,提出一种计算机系统故障诊断、决策计划及处理的方法很有必要。
发明内容
本发明提出了一种计算机系统故障诊断、决策计划及处理的方法,利用这种方法,故障管理系统可根据被管理计算机的配置、运行状态及故障症状,智能地对故障管理知识库中的知识进行自主配置和优化,以此为基础对故障进行诊断并采用适当的策略进行处理。
本发明的目的是按以下方式实现的,包括故障管理系统,该系统能够根据被管理计算机的配置、运行状态及故障症状,智能地利用故障管理知识库中的知识进行自主配置和优化,以此为基础对故障进行诊断并采用适当的策略进行处理,故障管理系统包括:故障管理知识库(1),状态监视模块(2),故障知识学习分析模块(3),决策计划模块(4),故障处理模块(5),人机接口(6),其中:
故障管理知识库(1),包括故障诊断知识、故障处理策略知识和故障预测知识;故障管理知识库是实现该方法的基础;
状态监视模块(2),负责对系统状态进行检测;
故障知识学习分析模块(3),利用故障管理知识库中的现有知识和从状态监视模块中收集到的状态信息加以综合分析,并针对分析结果对故障管理知识库中的知识进行重新配置和更新;故障知识学习分析模块是实现该方法的核心;
决策计划模块(4),根据从状态监视模块中收集到的状态信息,查询故障管理知识库,决策针对当前系统是否存在故障、该种故障应该进行何种处理策略进行处理、是否需要进行预警;
故障处理模块(5),负责根据决策计划模块的决策结果进行实际的故障处理动作,包括风扇调速、部件隔离;
人机接口(6),通过该接口由管理员采用人工的方式对故障管理知识库中的内容进行更新,或执行特定故障处理动作,人机接口提供管理员与故障管理系统进行交互的接口,作为自主计算机制的有益补充。
所述的状态监视模块采用带外/带内综合监控方式,获取计算机系统中芯片级、板卡级、系统级的状态/故障信息。
所述的故障知识学习分析模块,基于故障管理知识库中的大量历史状态/故障知识,利用聚类分析算法对未来故障产生的趋势、针对特定故障要采取的处理策略进行智能分析,并将分析后得出的新知识更新至故障管理知识库中。
所述的故障处理模块,结合硬件/操作系统级的容错机制,对已发生的或潜在的故障进行处理。
本发明的有益效果是:可以使故障管理系统针对被管理计算机由于发生故障或其他导致系统资源发生动态变化的条件下,能够根据监测到的系统状态/故障信息,智能地对故障诊断知识、故障处理策略知识和故障预测知识进行动态配置及调整,达到自主管理、自主调整的要求。基于自主计算的计算机系统故障诊断、响应与预警方法所具有的上述优点,使得其弥补了传统故障管理系统中由于只能采用预定义策略进行故障诊断和处理,可能存在的故障漏检、故障处理策略有误、对系统配置/外部环境变化适应性差等问题。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210129006.X/2.html,转载请声明来源钻瓜专利网。