[发明专利]一种云环境下自动故障处理的方法及系统在审
| 申请号: | 202010737436.4 | 申请日: | 2020-07-28 |
| 公开(公告)号: | CN111865695A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 陈玉林;蔡卫卫;宋伟;申嘉童 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
| 主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08;G06F9/455 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 陈婷婷 |
| 地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 环境 自动 故障 处理 方法 系统 | ||
1.一种云环境下自动故障处理的方法,其特征在于,在云环境中的用户层面上搭建虚拟环境,通过指标采集、指标获取及存储、异常检测、异常通知、异常处理、恢复检测和结果反馈,实现自动故障处理。
2.根据权利要求1所述的一种云环境下自动故障处理的方法,其特征在于,所述指标采集,进行数据采集获取环境信息,包括瞬时值、累加值、方差值和绝对值;
所述指标获取及存储,周期性请求所述指标采集得到的指标信息,所述指标信息是一段时间内存储在时序数据库中;
所述异常检测,通过运算检查收集的指标是否存在异常;
所述异常通知,将异常信息导出,使用消息队列的方式将告警信息发送出去;
所述异常处理,订阅告警信息,捕获到异常消息后从异常消息中提取出有用的信息,根据类型做相应的处理;
所述恢复检测,通过长循环任务实现恢复的判断,在异常时可选择再次引发故障处理或者将消息反馈;
所述结果反馈,订阅异常处理的反馈消息。
3.根据权利要求1或2所述的一种云环境下自动故障处理的方法,其特征在于,该方法的具体实现步骤如下:
1)、进行指标数据采集;
2)、将采集的数据发送至数据存储端,数据存储端对信息进行处理后采样保存信息;
3)、通过对指定指标进行状态推断,发送告警消息到消息队列;
4)、不同的告警信息发送给不同的处理单元,或将部分信息直接告知运维人员;
5)、通过使用虚机处理技术,包括热迁移、冷迁移或/和疏散,对虚拟机运行故障进行处理;
6)、使用长循环的方式检测恢复异常处理的结果,并对失败的处理重新请求或者发送信息到反馈模块;
7)、所述反馈模块记录处理结果信息,并根据配置发送通知给处理人员;
8)、记录操作流程和处理结果。
4.根据权利要求3所述的一种云环境下自动故障处理的方法,其特征在于,所述指标数据采集使用接口化的编程方式,被动发起采集请求。
5.根据权利要求3所述的一种云环境下自动故障处理的方法,其特征在于,所述数据存储端的存储后端使用时序数据库,用中心化的模块进行统一的数据获取和存储。
6.根据权利要求3所述的一种云环境下自动故障处理的方法,其特征在于,通过调度机制处理故障,不同优先级的故障分级处理,使用异步的方式执行故障处理逻辑。
7.一种云环境下自动故障处理的系统,其特征在于,包括指标采集模块、指标获取及存储模块、异常检测模块、异常通知模块、异常处理模块、恢复检测模块、结果反馈模块和日志模块,在物理环境上搭建虚拟环境,并将上述模块集成到系统中。
8.根据权利要求7所述的一种云环境下自动故障处理的系统,其特征在于,
指标采集模块用于获取环境的信息,所述信息包括瞬时值、累加值、方差值以及绝对值;
指标获取及存储模块周期性请求指标采集模块得到指标信息,这些采集的信息是一段时间内存储在时序数据库中的;
异常检测模块通过运算检查收集的指标是否存在异常;
异常通知模块用于将异常信息导出,使用消息队列的方式将告警信息发送出去;
异常处理模块订阅告警信息,异常通知模块发现有异常时发送异常消息,异常处理模块捕获到消息后从异常消息中提取出有用的信息,根据类型的不同,做不同的处理;
恢复检测模块通过长循环任务来实现恢复的判断,在异常时可以选择再次引发故障处理或者将消息反馈;
结果反馈模块订阅异常处理的反馈消息;
日志模块用于记录故障详情和故障恢复过程中的关键步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010737436.4/1.html,转载请声明来源钻瓜专利网。





