[发明专利]机群监控与预警方法无效
申请号: | 201210277602.2 | 申请日: | 2012-08-07 |
公开(公告)号: | CN102761448A | 公开(公告)日: | 2012-10-31 |
发明(设计)人: | 俞辉;高传俊 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 青岛高晓专利事务所 37104 | 代理人: | 杨大兴 |
地址: | 266555 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种机群监控与预警方法,采用分组机制适应不同规模的机群以及对大规模机群的实时响应,采用拓扑结构解决Group的单点故障,用监控与预警相结合对机群实时监控,通过实时分析由监控采集的数据与系统的性能指标进行比较,一旦发现某个数据超过了性能指标的阈值,将会通过短信的方式发送给用户,通知用户及时解决故障。 | ||
搜索关键词: | 机群 监控 预警 方法 | ||
【主权项】:
1.一种机群监控与预警方法,采用分组机制适应不同规模的机群以及对大规模机群的实时响应,采用拓扑结构解决Group的单点故障,用监控与预警相结合对机群实时监控,其特征在于,具体包括以下过程:(1)机群分组根据机群的规模确定将机群分成N组,
其中,clusterSize为机群的总节点数,则每组的节点数
多余的节点数采用平均分配到随机组中,每一组均有一个服务器,称为Group,其下的所有节点均由代理负责采集信息,称为Agent,Agent采集的信息分为静态信息和动态信息,机群分组包含以下执行步骤:①Agent将信息通过通信协议定时交给Group处理;②Group对信息进行分类,将信息分为即时信息和历史信息,又将历史信息分成1月历史信息和3月历史信息;③Group定时将上述信息写入指定数据库中,以供用户实时监控且为预警方法提供数据基础;④Group对Agent的响应时间一般为3秒,基本符合目前大部分机群规模实时响应需求;(2)解决单点故障Group存在单点故障,即当某个Group出现故障时,该Group下的Agent将不能工作,采用Group的冗余机制和星形拓扑结构,为每个Group设计一个备用Group,称作SecondaryGroup,SecondaryGroup与Group具有同样的功能,但是当没有Agent与SecondaryGroup通信时,SecondaryGroup只开启了一个监听线程,不断地监听是否有Agent连接进来,一旦有Agent连接进来,SecondaryGroup将会启动数据处理功能,由于Group与SecondaryGroup的灵活切换需要一个中心节点去处理,因此又引入星形拓扑结构,其中心节点为服务器,又称为ControlNode,所有Group和SecondaryGroup与ControlNode直接相连,由此便形成了一个星形拓扑结构,解决单点故障包含以下具体步骤:①Agent在启动时记录一个Group与SecondaryGroup的映射关系;②ControlNode实时记录着每个Group与SecondaryGroup的映射关系;③一旦某个Group出现故障时,Agent将会自动识别到当前的Group已经出现故障,Agent会自动与SecondaryGroup建立通讯,将采集的信息交给SecondaryGroup处理;④ControlNode与此同时将映射Group-->SecondaryGroup打上标记,表示该Group已经出现故障,需要进行人工恢复;⑤当Group的故障恢复时,ControlNode将会取消此映射的标记,同时通知SecondaryGroup暂定处理由Agent采集的信息且通过SecondaryGroup告知AgentGroup的故障已经解决;⑥Agent接受到指令之后,重新与Group建立通讯,Group单点故障解决;(3)监控与预警相结合通过挖掘由Agent采集的即时信息和历史信息,对每个节点的性能进行评判,查看CPU的空闲时间是否不到2%,内存使用率是否大于80%~99%,磁盘IO次数是否太频繁,以及网络通讯是否异常,从而达到预警的目的,按如下步骤执行:①Group将由Agent采集的数据按1个月历史信息、3个月历史信息和即时信息定时存入指定数据库中;②对即时信息进行分析,若发现有节点的信息长时间得不到更新,则可判断该节点已经出现故障;③对历史信息进行挖掘,分别对1个月历史信息和3个月历史信息中的进程、CPU、内存、磁盘IO以及网络流量进行分析,分析指标如下:a.进程信息包括1分钟运行进程数、5分钟运行进程数和15分钟运行进程数,如果运行的进程数过多,则此时会检查CPU信息;b.CPU的信息包括用户时间、NICE时间、系统时间、I/O时间以及空闲时间,如果发现CPU的空闲时间不足2%,则说明该节点运行的任务超过了该节点能承受的负荷,而如果进程数不多,则可能是CPU出现了瓶颈,预警方法会将结果以短信和邮件的方法发送给指定的用户;c.内存的信息包括总内存、使用内存和空闲内存,通过计算每个时间段内的内存使用率,若使用率超过了80%~99%,则该节点的内存明显的不足,则通知用户有必要扩展该节点的内存;d.磁盘IO信息包括每秒IO次数、读速度和写速度,如果磁盘的IO次数太多,则该节点的磁盘读写太过于频繁,已经达到了磁盘的瓶颈,则会通知用户应该减轻该节点的运行任务或者更换更好的硬件设备;e.网络流量包括IP接收包率、IP回应包率、IP请求包率、TCP接收段率、TCP发送段率、TCP重发段率、UDP接收包率和UDP发送包率,通过分析这些数据,可以得出近来网络通讯是否正常,若发现丢包率过高,则网络一定出现了异常,通知用户查验交换器,从而做到预防作用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210277602.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种三动力洗衣机
- 下一篇:含有倒捻子提取物的口腔组合物及相关方法