[发明专利]机群监控与预警方法无效

专利信息
申请号: 201210277602.2 申请日: 2012-08-07
公开(公告)号: CN102761448A 公开(公告)日: 2012-10-31
发明(设计)人: 俞辉;高传俊 申请(专利权)人: 中国石油大学(华东)
主分类号: H04L12/24 分类号: H04L12/24
代理公司: 青岛高晓专利事务所 37104 代理人: 杨大兴
地址: 266555 山东省*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种机群监控与预警方法,采用分组机制适应不同规模的机群以及对大规模机群的实时响应,采用拓扑结构解决Group的单点故障,用监控与预警相结合对机群实时监控,通过实时分析由监控采集的数据与系统的性能指标进行比较,一旦发现某个数据超过了性能指标的阈值,将会通过短信的方式发送给用户,通知用户及时解决故障。
搜索关键词: 机群 监控 预警 方法
【主权项】:
1.一种机群监控与预警方法,采用分组机制适应不同规模的机群以及对大规模机群的实时响应,采用拓扑结构解决Group的单点故障,用监控与预警相结合对机群实时监控,其特征在于,具体包括以下过程:(1)机群分组根据机群的规模确定将机群分成N组,其中,clusterSize为机群的总节点数,则每组的节点数多余的节点数采用平均分配到随机组中,每一组均有一个服务器,称为Group,其下的所有节点均由代理负责采集信息,称为Agent,Agent采集的信息分为静态信息和动态信息,机群分组包含以下执行步骤:①Agent将信息通过通信协议定时交给Group处理;②Group对信息进行分类,将信息分为即时信息和历史信息,又将历史信息分成1月历史信息和3月历史信息;③Group定时将上述信息写入指定数据库中,以供用户实时监控且为预警方法提供数据基础;④Group对Agent的响应时间一般为3秒,基本符合目前大部分机群规模实时响应需求;(2)解决单点故障Group存在单点故障,即当某个Group出现故障时,该Group下的Agent将不能工作,采用Group的冗余机制和星形拓扑结构,为每个Group设计一个备用Group,称作SecondaryGroup,SecondaryGroup与Group具有同样的功能,但是当没有Agent与SecondaryGroup通信时,SecondaryGroup只开启了一个监听线程,不断地监听是否有Agent连接进来,一旦有Agent连接进来,SecondaryGroup将会启动数据处理功能,由于Group与SecondaryGroup的灵活切换需要一个中心节点去处理,因此又引入星形拓扑结构,其中心节点为服务器,又称为ControlNode,所有Group和SecondaryGroup与ControlNode直接相连,由此便形成了一个星形拓扑结构,解决单点故障包含以下具体步骤:①Agent在启动时记录一个Group与SecondaryGroup的映射关系;②ControlNode实时记录着每个Group与SecondaryGroup的映射关系;③一旦某个Group出现故障时,Agent将会自动识别到当前的Group已经出现故障,Agent会自动与SecondaryGroup建立通讯,将采集的信息交给SecondaryGroup处理;④ControlNode与此同时将映射Group-->SecondaryGroup打上标记,表示该Group已经出现故障,需要进行人工恢复;⑤当Group的故障恢复时,ControlNode将会取消此映射的标记,同时通知SecondaryGroup暂定处理由Agent采集的信息且通过SecondaryGroup告知AgentGroup的故障已经解决;⑥Agent接受到指令之后,重新与Group建立通讯,Group单点故障解决;(3)监控与预警相结合通过挖掘由Agent采集的即时信息和历史信息,对每个节点的性能进行评判,查看CPU的空闲时间是否不到2%,内存使用率是否大于80%~99%,磁盘IO次数是否太频繁,以及网络通讯是否异常,从而达到预警的目的,按如下步骤执行:①Group将由Agent采集的数据按1个月历史信息、3个月历史信息和即时信息定时存入指定数据库中;②对即时信息进行分析,若发现有节点的信息长时间得不到更新,则可判断该节点已经出现故障;③对历史信息进行挖掘,分别对1个月历史信息和3个月历史信息中的进程、CPU、内存、磁盘IO以及网络流量进行分析,分析指标如下:a.进程信息包括1分钟运行进程数、5分钟运行进程数和15分钟运行进程数,如果运行的进程数过多,则此时会检查CPU信息;b.CPU的信息包括用户时间、NICE时间、系统时间、I/O时间以及空闲时间,如果发现CPU的空闲时间不足2%,则说明该节点运行的任务超过了该节点能承受的负荷,而如果进程数不多,则可能是CPU出现了瓶颈,预警方法会将结果以短信和邮件的方法发送给指定的用户;c.内存的信息包括总内存、使用内存和空闲内存,通过计算每个时间段内的内存使用率,若使用率超过了80%~99%,则该节点的内存明显的不足,则通知用户有必要扩展该节点的内存;d.磁盘IO信息包括每秒IO次数、读速度和写速度,如果磁盘的IO次数太多,则该节点的磁盘读写太过于频繁,已经达到了磁盘的瓶颈,则会通知用户应该减轻该节点的运行任务或者更换更好的硬件设备;e.网络流量包括IP接收包率、IP回应包率、IP请求包率、TCP接收段率、TCP发送段率、TCP重发段率、UDP接收包率和UDP发送包率,通过分析这些数据,可以得出近来网络通讯是否正常,若发现丢包率过高,则网络一定出现了异常,通知用户查验交换器,从而做到预防作用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210277602.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top