[发明专利]一种基于图中心度的云计算系统物理设备故障检测方法在审

专利信息
申请号: 201811113776.9 申请日: 2018-09-25
公开(公告)号: CN109067598A 公开(公告)日: 2018-12-21
发明(设计)人: 李亚琼;吴昊;李守超;周博;王钟沛 申请(专利权)人: 江苏润和软件股份有限公司
主分类号: H04L12/24 分类号: H04L12/24;H04L12/26
代理公司: 暂无信息 代理人: 暂无信息
地址: 210041 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 度量 物理设备 云计算系统 故障检测 物理资源 控制图 图中心 周期性监测 度量信息 发生故障 历史信息 在线监测 中心度 排序 检测
【说明书】:

发明涉及一种基于图中心度的云计算系统物理设备故障检测方法。周期性监测物理设备各资源的度量信息,根据各物理资源度量的历史信息建立XmR控制图,当在线监测的物理资源度量值超出控制图的正常范围则检测为异常度量,计算任意两个异常度量间的皮尔逊相关系数,当相关系数超出阈值则形成相关边从而建立异常度量的相关图,计算图中各异常度量的中心度作为该度量的异常程度,按照异常程度从高到低排序,排名靠前的异常度量所在的物理设备为发生故障的物理设备。

技术领域

本发明涉及云计算系统故障检测方法,尤其涉及一种基于图中心度的云计算系统物理设备故障检测方法,属于软件技术领域。

背景技术

云计算系统目前已广泛应用于部署在线应用(如电子商务),同时现有对可靠性有较高要求的关键业务(如电信基础软件)也逐渐迁移到云计算系统。云计算系统是复杂的分布式系统,硬件设备来自于不同的提供商,以及不断演化以适应变化的业务需求,对保障大规模系统的可靠性带来了更大的挑战。及时发现并准确检测物理设备的故障是保障云计算系统可靠性的关键技术。当前的故障检测通常是采用故障注入的方法,向云计算系统中注入大量的典型故障,搜集此时系统的监测数据,训练得到故障模型。在系统运行过程中,将实时搜集到的监测数据与建立的故障模型进行匹配,以检测发生的故障(HerodotosHerodotou et al. Scalable Near Real-time Failure Localization of Data CenterNetworks. In: Proceedings of the ACM SIGKDD International Conference onKnowledge Discovery and Data Mining. 2014, pp.1689–1698; Arjun Roy et al.Passive Realtime Datacenter Fault Detection and Localization. In: Proceedingsof the Conference on Networked Systems Design & Implementation. USENIX, 2017,pp. 595–612.)。但是云计算系统上部署有不同用户的多台物理设备,难以同时向这些机器注入多类型故障,并且在系统上部署的业务应用多种多样并且不断演化,需要重复执行故障注入和训练模型的过程,因此当前基于故障注入的故障检测方法难以在具体工程实践中广泛应用。分布式系统延迟分析方法检测操作引起的异常延迟以诊断可能的异常组件。CloudDiag (Haibo Mi et al. Toward Fine-Grained, Unsupervised, ScalablePerformance Diagnosis for Production Cloud Computing Systems. In: IEEETransactions on Parallel and Distributed Systems, 24(6):1245–1255, 2013.)监测处理用户请求的方法执行时间,根据延迟时间分布以诊断引起异常的方法调用。DARC(Avishay Traeger, Ivan Deras, and Erez Zadok. DARC: Dynamic Analysis of RootCauses of Latency Distributions. In: Proceedings of the InternationalConference on Measurement and Modeling of Computer Systems. ACM, 2008, 277–288.)监测从给定函数开始的调用路径,定位最大延迟函数。基于延迟分析的方法仅监测并分析组件的处理时间,而不能监测云计算系统的物理资源使用信息,难以检测物理设备故障。

发明内容

本发明的目的:提出一种面向云计算系统,基于无监督学习的物理设备故障检测方法,只需要在系统正常执行时搜集监测数据,训练系统正常行为模型,即可在线检测物理设备故障,无需人工注入故障或掌握领域知识。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏润和软件股份有限公司,未经江苏润和软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811113776.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top