[发明专利]一种超大规模业务集群监控系统和方法无效
| 申请号: | 201110069058.8 | 申请日: | 2011-03-22 |
| 公开(公告)号: | CN102147960A | 公开(公告)日: | 2011-08-10 |
| 发明(设计)人: | 赵欢;李绍辉;刘卫红;历军 | 申请(专利权)人: | 曙光信息产业股份有限公司 |
| 主分类号: | G08B25/00 | 分类号: | G08B25/00 |
| 代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
| 地址: | 300384 天津市西青区华*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 超大规模 业务 集群 监控 系统 方法 | ||
技术领域
本发明涉及超大规模集群监控领域,具体涉及一种超大规模业务集群监控系统和方法。
背景技术
随着服务器数量逐年增多,对于管理人员,需要及时掌握集群的情况,以及实时地对集群进行监控。
监控超大规模业务集群(大于2000台)会遇到各种性能瓶颈问题,该技术解决了超大规模集群业务信息统一采集的性能问题、大规模数据存储和查询的性能问题。因此,需要一种系统及方法解决上述问题。
发明内容
为解决上述缺点,本发明提出了一种超大规模业务集群监控系统和方法。
一种超大规模集群业务监控系统,该系统包括中心业务监控服务器和分区业务监控服务器,
一种超大规模集群业务监控系统,该系统包括中心业务监控服务器和分区业务监控服务器,
其中,所述中心业务监控服务器包括:
接收来自多个分区业务监控服务器信息的接收模块;
根据预定义的规则触发告警告警触发模块;
所述分区业务监控服务器包括:
应急处理模块,用于对集群告警时的紧急管理;
采集分区集群内部的业务信息的业务监控模块;
将采集到的信息推送至中心业务监控服务器推送模块。
优选的,所述告警触发模块由管理员预先设定阈值,当收到的业务监控服务器的监控信息超过阈值时,则触发告警。
较优选的,所述监控信息包括CPU利用率,内存占用空间和存储占用空间。
优选的,所述应急处理模块在告警触发后超过预定时间无响应后,自动进行应急处理。
较优选的,所述应急处理模块的应急处理为按照资源占用多少排序,优先关掉资源占用多的进程。
一种超大规模集群业务监控系统的监控方法,所示方法步骤如下:
A、对业务进行分区,每个分区设置一个分区业务监控服务器,分区业务监控服务器采集到每个分区集群内部业务信息后,将信息推送至中心业务监控服务器;
B、中心业务监控服务器接收到信息后,若超过预先设定的阈值,则发出告警信息,若发出告警信息后等待响应时间超出设定的响应的时间,则对信息进行整合处理并反馈分区业务监控服务器;
C、分区业务监控服务器根据反馈信息控制分区业务工作。
优选的,所述分区业务监控服务器在接收到反馈信息后,首先按照资源占用高低对进程排序,关掉资源占用高的进程。
优选的,分区业务监控服务器采集的到集群内部业务信息包括CPU利用率,内存占用空间,存储占用空间。
本发明通过使用统一的集中式业务监控平台,有效实现了对超大规模集群业务系统进行高效的监控和管理。
附图说明
图1为本发明的超大规模集群分区业务监控系统的结构图;
具体实施方式
根据本发明提供的一种超大规模集群业务监控系统,包括中心业务监控系统和分区业务监控系统。其中,每个分区业务监控服务器用于采集每个分区集群内部的信息,并将采集到的信息推送至中心业务监控服务器。
分区业务监控服务器包括业务监控模块、推送模块。其中,业务监控模块用于采集分区集群内部业务的信息。推送模块用于将采集到的信息推送至中心业务监控服务器。
中心监控服务器包括接收模块、告警触发模块。其中,接收模块用于接收来自多个分区监控服务器的信息。告警触发模块用于根据预定义的规则触发告警。
借助本发明上述技术方案,通过使用统一的集中式业务监控平台,实现对超大规模集群业务系统进行高效的监控和管理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业股份有限公司,未经曙光信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110069058.8/2.html,转载请声明来源钻瓜专利网。





