[发明专利]一种基于指数移动平均的分布式系统自适应故障检测方法有效
申请号: | 201710413817.5 | 申请日: | 2017-06-05 |
公开(公告)号: | CN107204879B | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 姜晓红;代长波;李金昌;杜定益;陈广;吴朝晖 | 申请(专利权)人: | 浙江大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 指数 移动 平均 分布式 系统 自适应 故障 检测 方法 | ||
本发明公开了一种基于指数移动平均的分布式系统自适应故障检测方法,包含四个步骤:时序数据收集、心跳预测、输出诊断值以及故障判别。该故障检测方法可以用于分布式系统中的故障检测,及时发现系统故障隐患,降低系统宕机风险。本发明利用历史心跳序列,输出一个随时间动态累积的诊断值,根据系统初始化时设定的阈值,判断系统中节点是否故障。在计算心跳预测值时,基于指数移动平均计算各历史心跳消息的影响权值,使影响权值随时间的递增而指数递减,同时通过方差比降低突变历史心跳的影响权值。
技术领域
本发明属于分布式系统技术领域,具体涉及一种基于指数移动平均的分布式系统自适应故障检测方法。
背景技术
随着分布式技术的发展,分布式系统正应用到人们日常生活的方方面面,电子商务、云存储、网络通信以及银行和证券等行业都将其核心业务构建在分布式系统上以向客户提供快速稳定且安全的服务。故障检测是分布式系统的基础组成部分,是保证系统可靠和稳定运行的必要手段之一;随着系统规模和复杂度的不断增加,故障检测的难度也越来越高。
自适应故障检测器能够根据系统或网络状态,动态调整检测参数,如心跳超时时间等,相对于传统固定的故障检测器具有更好的检测效果。目前,自适应故障检测技术的研究已经较为成熟,许多基于心跳自适应的故障检测器被出,大致可以总结成两类:一类是通过历史心跳序列,使用不同算法计算下一心跳的预测值并根据预测值设定检测超时时间,这种故障检测器的检测结果具有二值性,要么故障要么正常;另外一类是将故障的监测与解释权分离的自适应故障检测器,该检测器也是利用心跳技术,但是输出一个随时间变化的累积决策值,用户通过设定预测来判断是否故障,这种检测器可以针对统一系统上的不同应用产生不一样的检测效果,具有更高的灵活性。
发明内容
本发明提供了一种基于指数移动平均的分布式系统自适应故障检测方法,能够在保证检测准确性地同时缩减故障检测时间,提高故障检测效率,且具有更强的适用性。
一种基于指数移动平均的分布式系统自适应故障检测方法,包括如下步骤:
(1)每隔固定时间向系统中的被测节点发送心跳消息并接收其返回的响应消息,从而维持更新一个指定长度为n的心跳延时序列,n为大于1的自然数;
(2)根据所述心跳延时序列,在最近一次心跳响应到达时刻计算出下一心跳延时的预测值EIA0;
(3)根据下一心跳延时的预测值EIA0计算出一个随时间累积增长的诊断值并根据该诊断值对被测节点进行故障判别。
所述步骤(1)中的心跳延时序列由n个心跳延时IA1~IAn按时序从近到远排列组成,序列中的任一心跳延时等于其对应的一次心跳响应的到达时刻减去其前一次心跳响应的到达时刻;若心跳延时序列已满,则在存入最新的心跳延时同时移除最远的心跳延时。
所述步骤(2)中计算下一心跳延时的预测值EIA0,具体过程如下:
2.1对于心跳延时序列中的任一心跳延时IAi,采用指数移动平均法计算其对于下一心跳延时的影响权值φi;
2.2采用方差比法对影响权值φi进行调整优化,得到心跳延时IAi对于下一心跳延时的最终影响权值θi;
2.3使心跳延时序列中心跳延时与其预测值的误差均值作为下一次预测的安全余量α,并根据最终影响权值θi计算出下一心跳延时的预测值EIA0。
所述步骤2.1中指数移动平均法的计算表达式如下:
其中:表示向上取整,i为自然数且1≤i≤n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710413817.5/2.html,转载请声明来源钻瓜专利网。