[发明专利]集群中NodeManager状态管理方法、装置及计算设备有效
申请号: | 201910394996.1 | 申请日: | 2019-05-13 |
公开(公告)号: | CN111930493B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 李瑶;许佳 | 申请(专利权)人: | 中国移动通信集团湖北有限公司;中国移动通信集团有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 王广涛 |
地址: | 430021 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 nodemanager 状态 管理 方法 装置 计算 设备 | ||
1.一种集群中NodeManager状态管理方法,其特征在于,所述方法包括:
搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估,包括:搜集集群的网络负载信息;根据所述网络负载信息对所述集群的网络延迟进行评估,以及对所述集群的磁盘状态进行评估;
所述根据所述网络负载信息对所述集群的网络延迟进行评估,包括:通过Hadoop中的JMX监控的JMX接口采集RPC队列的请求排队时间和处理时间;对所有节点的请求排队时间求和后取平均值,得到基准队列时间,将第一主机的处理时间作为基准处理时间;判断所述第一主机的网络延迟是否大于所述基准队列时间,或者第二主机的网络延迟是否大于所述基准处理时间;当所述第一主机的网络延迟大于所述基准队列时间,或者所述第二主机的网络延迟大于所述基准处理时间时,确定所述集群中节点的状态不健康;
所述对所述集群的磁盘状态进行评估,进一步包括:通过脚本查看磁盘运行状况;判断所述磁盘是否报错;当所述集群的磁盘中某块磁盘报错时,确定所述节点的状态不健康;
当主机资源是YARN独占时,当所述网络延迟超过预设值时,结合历史的网络延迟及其对应的节点的健康状态记录,对所述集群的网络延迟进行评估;
当主机资源不是YARN独占时,对CPU使用率和内存使用率进行评估;根据所述网络延迟、磁盘状态、CPU使用率和内存使用率的评估的结果确定所述集群中节点的健康状态;
当所述节点的状态不健康时对NodeManager进行下线操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
重新配置CPU资源和内存资源;
当根据对所述集群的硬件状态的评估确定所述集群中节点的状态健康时,修改NodeManager配置文件的参数为所述重新配置后的值;
对所述NodeManager进行上线操作。
3.根据权利要求1所述的方法,其特征在于,所述对CPU使用率进行评估,进一步包括:
通过脚本计算当前CPU的总核心数N,确定当前非YARN使用的CPU的使用率p,以及NodeManager分配的CPU的核心数M;
将M减去N与(1-p)的乘积,得到所述CPU使用率的评估的分值;
所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:
当所述CPU使用率的评估的分值超过预设CPU使用率阈值时,确定所述节点的状态不健康。
4.根据权利要求1所述的方法,其特征在于,所述对内存使用率进行评估,进一步包括:
通过脚本获得内存总量,NodeManager中分配的内存总量以及系统进程使用量;
判断所述内存总量与所述系统进程使用量的差值是否大于所述NodeManager中分配的内存总量;
所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:
当所述内存总量与所述系统进程使用量的差值不大于所述NodeManager中分配的内存总量时,确定所述节点的状态不健康。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团湖北有限公司;中国移动通信集团有限公司,未经中国移动通信集团湖北有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910394996.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:质差小区识别方法、装置和设备
- 下一篇:程序脚本处理方法、装置和服务器