[发明专利]一种故障检测方法、装置及电子设备有效
| 申请号: | 201710703012.4 | 申请日: | 2017-08-16 |
| 公开(公告)号: | CN109408302B | 公开(公告)日: | 2022-07-05 |
| 发明(设计)人: | 田英鹤 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F11/22 | 分类号: | G06F11/22;G06F11/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 栗若木;龙洪 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 故障 检测 方法 装置 电子设备 | ||
1.一种故障检测方法,包括:
对于云计算系统中的待检测故障的用户实例,获取所述用户实例的资源使用量及资源量上限;
比较所述用户实例的资源使用量及资源量上限,根据比较结果确定所述用户实例是否存在故障;
如果各种资源的使用都没有达到极限,则确定所述用户实例存在故障;如果存在至少一种资源的使用达到极限,则确定所述用户实例不存在故障。
2.如权利要求1所述的故障检测方法,其特征在于,所述资源包括以下一或多种:
中央处理器CPU、内存、磁盘、网络;
所述资源使用量包括以下一种或多种:
CPU核数、内存大小、磁盘每秒输入输出量iops、磁盘带宽、网络带宽;
相应地,所述资源量上限包括以下一种或多种:
CPU核数上限、内存上限、iops上限、磁盘带宽上限、网络带宽上限。
3.如权利要求1所述的故障检测方法,其特征在于,所述对于待检测故障的用户实例,获取所述用户实例的资源使用量及资源量上限前还包括:
周期性获取各用户实例的请求统计数据;
分别根据各用户实例的请求统计数据,判断各用户实例是否为待检测故障的用户实例。
4.如权利要求3所述的故障检测方法,其特征在于,所述请求统计数据包括:每秒查询率QPS、每秒事务处理量TPS和响应时间RT;
所述分别根据各用户实例的请求统计数据,判断各用户实例是否为待检测故障的用户实例包括:
对于各用户实例分别进行以下操作:当该用户实例本周期的TPS和QPS与上一周期相比,增长率均低于第一预定阈值,且本周期的RT与上一周期相比,增长率高于第二预定阈值时,将该用户实例作为待检测故障的用户实例。
5.如权利要求1所述的故障检测方法,其特征在于,所述获取用户实例的资源使用量包括:
在预定长度的时间段中的T个时间点分别采集所述用户实例对各种资源的资源使用量,T是预定正整数;
所述比较用户实例的资源使用量及资源量上限,根据比较结果确定所述用户实例是否存在故障包括:
对于各种资源分别进行以下操作:将所采集的该种资源的T个资源使用量分别和所述用户实例该种资源的资源量上限进行比较,得到该种资源的T个比较结果;
根据各种资源的T个比较结果确定所述用户实例是否存在故障。
6.如权利要求5所述的故障检测方法,其特征在于,所述根据各种资源的T个比较结果确定所述用户实例是否存在故障包括:
如果一种资源的T个比较结果中有N个比较结果满足预定条件,则确定该种资源的使用达到极限;其中,N是小于T的正整数。
7.如权利要求1所述的故障检测方法,其特征在于,所述根据比较结果确定所述用户实例是否存在故障后还包括:
如果确定所述用户实例存在故障,且所述用户实例所在主机中,仅所述用户实例被确定为存在故障,则判断是所述用户实例本身出现故障;
如果确定所述用户实例存在故障,且所述用户实例所在主机中,各用户实例都被确定为存在故障,则判断是所述用户实例所在主机出现故障。
8.一种故障检测装置,其特征在于,包括:
检测模块,用于对于云计算系统中的待检测故障的用户实例,获取所述用户实例的资源使用量及资源量上限;
故障判断模块,用于比较所述用户实例的资源使用量及资源量上限,根据比较结果确定所述用户实例是否存在故障;如果各种资源的使用都没有达到极限,则确定所述用户实例存在故障;如果存在至少一种资源的使用达到极限,则确定所述用户实例不存在故障。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710703012.4/1.html,转载请声明来源钻瓜专利网。





