[发明专利]机群监控与预警方法无效
| 申请号: | 201210277602.2 | 申请日: | 2012-08-07 |
| 公开(公告)号: | CN102761448A | 公开(公告)日: | 2012-10-31 |
| 发明(设计)人: | 俞辉;高传俊 | 申请(专利权)人: | 中国石油大学(华东) |
| 主分类号: | H04L12/24 | 分类号: | H04L12/24 |
| 代理公司: | 青岛高晓专利事务所 37104 | 代理人: | 杨大兴 |
| 地址: | 266555 山东省*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机群 监控 预警 方法 | ||
技术领域:
本发明涉及一种机群监控与预警方法,尤其是采用分组机制适应不同规模的机群以及对大规模机群的实时响应,同时采用拓扑结构解决Group的单点故障,且采用监控与预警相结合的方法达到用户对机群实时监控的目的。
背景技术:
在传统的机群监控系统中,开源项目Ganglia很好的实现了对具有2000节点的机群规模进行监控。Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统。它是基于分层设计,利用精心设计的数据结构和算法实现节点之间的低并发性。但是,Ganglia不支持单点故障的处理,即当服务器出现故障时,需要人工处理。同时,由于近年互联网的高速发展,机群的规模已远远超过了2000节点,而Ganglia在随着机群规模的扩展其监控性能并不能得到及时性的响应。目前机群监控技术均是针对某一特殊机群平台而设计的,导致机群监控技术没有一定的通用性,同时传统的监控技术存在不支持单点故障处理问题且不能提供预警的方案。
发明内容:
本发明所要解决的技术问题是为了克服现有技术存在的缺陷而提供一种机群监控与预警方法,以适应不同规模的机群以及对大规模机群的实时响应,其能监控的机群规模将远远超过2000个节点,同时,解决单点故障处理问题。
本发明为解决其技术问题所采取的技术路线是:首先采用分组思想,将机群分成N组,确定每组的节点数,即每一组由一个Group和M台Agent组成;然后采用星形拓扑结构解决单点故障问题,将称为ControlNode的节点作为中心节点,每组中的Group和SecondaryGroup与ControlNode直接相连,构成一个星型拓扑结构,ControlNode实时记录着每个Group与SecondaryGroup的映射关系,一旦Group出现故障,该Group下的所有Agent将会暂时连接到SecondaryGroup,当故障被消除后,Agent又会连接回Group;最后采用监控与预警相结合的方法,实时挖掘由监控生成的数据,通过与系统性能指标相比较,当发现某个节点超过性能阈值的时候,将会以短信或者邮箱的方式通知指定用户,具体包含以下过程:
(1)机群分组
根据机群的规模确定将机群分成N组,其中,clusterSize为机群的总节点数,
则每组的节点数
然后根据公式(2)确定每组的节点数M,多余的节点数采用平均分配到随机组中,每一组均有一个服务器,称为Group,其下的所有节点均由代理负责采集信息,称为Agent,Agent采集的信息分为静态信息和动态信息,机群分组包含以下执行步骤:
每一组由一台服务器和M个节点组成,其中,服务器又被称为Group。其下的M个节点均由代理负责采集信息,称为Agent。Agent采集的信息分为静态信息和动态信息,静态信息则是指那些在某一段时间内不会变化的软硬件信息,见表1,动态信息是指那些实时变化的信息,见表2。
表1静态信息表
表2动态信息表
机群分组包含以下执行步骤:
①Agent将信息通过通信协议定时交给Group处理;
②Group对信息进行分类,将信息分为即时信息和历史信息,又将历史信息分成1月历史信息和3月历史信息;
③Group定时将上述信息写入指定数据库中,以供用户实时监控且为预警方法提供数据基础;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210277602.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三动力洗衣机
- 下一篇:含有倒捻子提取物的口腔组合物及相关方法





