[发明专利]一种基于IPMI的冗余计算机系统节点故障主被动检测方法有效
| 申请号: | 201310634139.7 | 申请日: | 2013-12-01 |
| 公开(公告)号: | CN103617104B | 公开(公告)日: | 2017-01-04 |
| 发明(设计)人: | 徐振朋;翟永宁;殷进勇;杨光年;李韦韦;吴茂传;苏培培;楼智翔;董奇;史小犇 | 申请(专利权)人: | 中国船舶重工集团公司第七一六研究所 |
| 主分类号: | G06F11/22 | 分类号: | G06F11/22;G06F11/07 |
| 代理公司: | 南京理工大学专利中心32203 | 代理人: | 马鲁晋 |
| 地址: | 222006 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种冗余计算机系统的故障主被动检测方法。该方法包括第一步:利用冗余待测计算机的IPMI标准接口,故障检测模块实时收集冗余系统中待测的主用计算机和备用计算机的状态数据,收集到一定数量的运行状态数据后;第二步:故障检测模块通过模式匹配方法诊断待测计算机是否出现运行故障;第三步:依据给定的系统参数值,预测主用计算机一段时间内出现故障事件的概率。作为实现多台计算机冗余系统容错不可或缺的基础组件之一,本发明故障主被动检测方法能够在一定程度上降低故障检测的时间延迟、提高故障检测的准确性、预测故障发生概率,以支撑关键服务系统的快速失效切换和主动容错等高可用保障机制。 | ||
| 搜索关键词: | 一种 基于 ipmi 冗余 计算机系统 节点 故障 被动 检测 方法 | ||
【主权项】:
一种基于IPMI的冗余计算机系统节点故障主被动检测方法,其特征在于:包括以下步骤:步骤1、在所有待测计算机上部署并启用IPMI功能模块,并通过标准RJ45接口或串行接口与故障检测模块相连接;所有待测计算机构成冗余备份系统;所述故障检测模块是采用FPGA实现的逻辑功能模块;步骤2、通过IPMI协议周期性地收集上述冗余备份系统中主备计算机节点的运行状态信息序列p,所述状态信息包括CPU、风扇、内存和部件状态数据;步骤3、对步骤2采集到的状态信息序列p进行分析,通过模式匹配方法分别对主备计算机节点的运行状态进行故障判定,即故障被动检测;具体为:步骤3‑1、对于系统预置样本库Q中的某个样本序列q和采集到的待测计算机状态序列p,q∈Q,对序列p和q进行平均线性分段,得到N个子序列,N为自然数;对于各子序列中相邻两点确定的线段,确定各线段对应的斜率值和斜率反正切值;步骤3‑2、拟合各子序列中斜率反正切值相近的连续线段,得到其拟合变换后的斜率反正切值序列和其中为序列p第r个子序列的线段数目;对于某一个子序列r,r∈[1,N],其对应线段拟合变换的具体步骤为:(a)将n初始为1,即n=1;(b)确定子序列r中第n条线段与第n+1条线段的斜率反正切值之差h=H[n,r]‑H[n+l,r],以判定两条线段间的斜率反正切值的相似程度,其中H[n,r]表示子序列r中第n条线段的斜率反正切值,H[n,r]∈Hp[1…tx,1…N]或H[n,r]∈Hq[1…tx,1…N];(c)对斜率反正切值之差h进行判断,若|h|>=ε,则n=n+1,转到步骤(b),直到完成遍历子序列r中所有的线段;若|h|<ε,利用一元线性回归函数,确定出序列r中第n条线段和第n+1条线段对应拟合线段的斜率值R,之后执行步骤(d);ε为判定阈值;(d)更新拟合变换后的斜率反正切值序列,以arctan(R)取代子序列r中第n条线段的斜率反正切值H[n,r],即H[n,r]=arctan(R),并将子序列r中第n+1条线段对应横坐标跨度并入第n条线段的横坐标跨度;(e)删除子序列r中第n+1条线段,转到步骤(b),直到完成遍历子序列r中所有的线段;步骤3‑3、重复步骤3‑1和步骤3‑2,确定序列p与样本库Q中所有样本序列相匹配的子序列数;对于某个样本序列q,q∈Q,确定序列p与q相匹配的子序列数的具体步骤为:(1)设定偏离误差β>0;用E(q)表示序列p与样本序列q之间匹配的子序列数,E(q)初始为0;(2)若q为故障状态的样本序列,F(q)=1;若q为非故障状态的样本序列,F(q)=0;(3)确定序列p与样本序列q之间匹配的子序列数E(q),具体为:比较序列p和序列q的N个子序列,如果子序列中的线段数不等,则匹配子序列数不增加;如果子序列中的线段数相等,进一步确定出子序列对应线段间的偏差,如果平均偏差小于允许的偏离误差β,即则与序列p匹配的子序列数E(q)加1;(4)如果没有完成遍历样本库Q中的所有样本序列,取下一个尚未遍历的样本序列赋值给q,转到步骤3‑1;步骤3‑4、依据匹配子序列数E(x),确定序列p在样本库Q中的m个近邻,具体为:确定序列p的m个近邻x1,x2,…,xm,m>0为近邻数,具体为:按照序列p与样本序列匹配子序列数量的大小,降序排列样本序列,取出前m个值对应的样本序列,则E(xk)(1≤k≤m)表示近邻与序列p之间匹配的子序列数;步骤3‑5、对序列p进行的故障判定,具体为:对序列p进行的故障判定,具体为:用a表示近邻中类别为故障状态的样本序列的数量,用b表示近邻中类别为无故障状态的样本序列的数量,a+b=m,对于F(xi)=1、F(xj)=0,如果且成立,判定对应序列p的待测计算机为故障状态,否则判定对应序列p的待测计算机为无故障状态;步骤4、在给定的系统参数值的前提下,通过对主用计算机节点故障进行预测,即故障主动检测,确定在何时对上述冗余备份系统实施主动式的主备切换;具体为:步骤4‑1、利用主用计算机节点运行故障预测的数学模型f(x)进行预测:f(x)=x-1(γ-1(α-1)-1eLγ(eγ(α-1)(x+C)-1)+γ-1(e-γ(x+C)-1)+C)α≠1x-1(eLγ(x+C)+γ-1(e-γ(x+C)-1)+C)α=1]]>式中,γ为主备计算机节点的故障事件概率,C为主动式的主备切换过程中引入系统开销的常量因子,C>0;α为被动式的主备切换过程中引入系统开销的线性因子,其合理区间为[0,1];L为被动式的主备切换过程中引入系统开销的常量因子,L>0;步骤4‑2、将给定的主备计算机节点的故障事件概率γ、被动式的主备切换过程中引入系统开销的线性因子α、被动式的主备切换过程中引入系统开销的常量因子L和主动式的主备切换过程中引入系统开销的常量因子C的具体数值带入到主用计算机节点运行故障预测的数学模型f(x)中,并求解满足下式的x:∂f(x)/∂x=0and∂2f(x)/∂x2>0]]>即可以确定主用计算机节点每间隔x时间段对冗余备份系统实施一次主动式的主备切换。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶重工集团公司第七一六研究所,未经中国船舶重工集团公司第七一六研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310634139.7/,转载请声明来源钻瓜专利网。





