[发明专利]集群状态监控方法及装置在审
| 申请号: | 202011046727.5 | 申请日: | 2020-09-29 |
| 公开(公告)号: | CN112115031A | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 严琳;徐雅光;韩路;俞浩;刘利刚;陈世强 | 申请(专利权)人: | 中国银行股份有限公司 |
| 主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32;G06F11/34;G06K9/62 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
| 地址: | 100818 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 集群 状态 监控 方法 装置 | ||
本发明提供了一种集群状态监控方法及装置,该方法包括:响应于集群监控指令,确定集群监控指令对应的集群,集群中设置有多个节点;实时采集集群的监控数据,监控数据包括集群性能指标信息、每个节点的节点性能指标信息以及任务运行信息;应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到监控数据对应的集群未来状态;在集群未来状态表征为集群状态异常的情况下,发送集群状态异常对应的告警信息。应用本发明提供的方法,能够通过隐马尔可夫模型基于集群性能指标信息、每个节点的节点性能指标信息以及集群当前的任务运行信息预测出集群的运行状态,使得能够在集群发生故障之前,发出告警信息,进而能保障集群运行的稳定性。
技术领域
本发明涉及计算机技术领域,特别涉及一种集群状态监控方法及装置。
背景技术
近年来,随着计算机科学技术的发展,互联网应用的需求也在不断增加,为了满足日益增长的应用需求,需要大规模的服务器集群来处理各种应用业务,而在集群处理各种应用业务过程中,为了保证集群的正常运行,通常需要对集群进行监控。
现有技术中,通常是收集集群中的一些技术人员关注的性能指标,再将集群的性能指标和预先根据历史数据划定的阈值进行比较,从而实现对集群状态的监控,然而,采用这样的监控方式,容易使得集群出现性能故障时才被发现,导致集群运行不稳定。
发明内容
本发明所要解决的技术问题是提供一种集群状态监控方法,能够保障集群运行的稳定性。
本发明还提供了一种集群状态监控装置,用以保证上述方法在实际中的实现及应用。
一种集群状态监控方法,包括:
响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;
实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;
应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;
在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。
上述的方法,可选的,应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态,包括:
对所述监控数据进行预处理,得到与所述隐马尔可夫模型相匹配的输入参数;
将所述输入参数输入至所述隐马尔可夫模型,使得所述隐马尔可夫模型确定所述集群在所述输入参数对应的目标未来时刻处于各个预设的状态的概率值;
将各个所述概率值中数值最大的概率值所对应的状态作为所述监控数据对应的集群未来状态。
上述的方法,可选的,所述隐马尔可夫模型的设置过程,包括:
获取训练数据集以及待训练模型,所述训练数据集包括多个按采集时间顺序排列的历史监控数据;
依次应用所述训练数据集中的每个历史监控数据对所述待训练模型进行训练,直至所述待训练模型满足预先设置的停止训练条件时,将所述待训练模型作为隐马尔可夫模型。
上述的方法,可选的,所述实时采集所述集群的监控数据,包括:
实时读取所述集群对应的任务日志,得到所述集群当前的任务运行信息;
实时调用预设的性能指标采集工具采集到所述集群当前的集群性能指标以及所述集群中的每个节点的节点性能指标;
将当前采集到的所述集群性能指标、所述节点性能指标以及所述任务运行信息组成所述集群当前的监控数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011046727.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:套现检测实现方法、装置及计算机设备
- 下一篇:一种基准线调整方法及装置





