[发明专利]集群中NodeManager状态管理方法、装置及计算设备有效
申请号: | 201910394996.1 | 申请日: | 2019-05-13 |
公开(公告)号: | CN111930493B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 李瑶;许佳 | 申请(专利权)人: | 中国移动通信集团湖北有限公司;中国移动通信集团有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 王广涛 |
地址: | 430021 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 nodemanager 状态 管理 方法 装置 计算 设备 | ||
本发明实施例涉及分布式资源管理及调度系统技术领域,公开了一种集群中NodeManager状态管理方法、装置及计算设备。该方法包括:搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估;根据评估的结果确定所述集群中节点的健康状态;当所述节点的状态不健康时对NodeManager进行下线操作。通过上述方式,本发明实施例实现了NodeManager故障前预判和自动下线,保障了系统的稳定运行,同时避免了节点主机有多个应用程序抢占时所造成Container分配失败进而导致任务失败的情况。
技术领域
本发明实施例涉及分布式资源管理及调度系统技术领域,具体涉及一种集群中NodeManager状态管理方法、装置及计算设备。
背景技术
随着计算机技术的发展,各种基于数据密集型的应用计算框架不断涌现,如MpaReduce,Spark,S4,Storm等。在采用计算框架时,一般都会考虑资源利用率、运维成本、数据共享等因素,应用者一般希望将所有这些计算框架均部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用。这样,便诞生了资源统一管理与调度平台,其典型代表是YARN(Yet Another Resource Negotiator,另一种资源协调者)。
YARN中分为ResouceManager(全局资源管理器,RM)和NodeManager(节点管理器,NM)角色,其中ResouceManager主要负责全局的分配和管理。NodeManager负责单个节点的资源分配和管理。NodeManager接受任务后可以分配Application Master和Container,当主机资源不是YARN独占的时候可能会造成ResouceManager资源申请失败的情况。
现有技术中,YARN资源分配只会将CPU和内存作为计算的资源,在集群启动时以yarn-site.xml配置的形式提前划分,ResouceManager和NodeManager之间通过心跳来维持连接,无法对网络做出判断从而进行资源分配。此外,MPP架构的Impala同样会部署在Hadoop集群的主机上,但是资源分配并不根据YARN管理,当执行MPP聚合查询时,会在内存中积累大量的数据,此时如果继续按照配置中的内存和CPU来申请的话,会造成Container分配失败进而导致任务失败。即时查询占用的内存比较高,但是使用时间比较短。如果全部预留会造成YARN的浪费。因此,这种方式无法适应节点主机有多个应用程序抢占的情况。
发明内容
鉴于上述问题,本发明实施例提供了一种基于TimesTen内存库的订阅数据库伸缩方法、装置及计算设备,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种集群中NodeManager状态管理方法,所述方法包括:
搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估;
根据评估的结果确定所述集群中节点的健康状态;
当所述节点的状态不健康时对NodeManager进行下线操作。
在一种可选的方式中,所述搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估,进一步包括:
搜集集群的网络负载信息;
根据所述网络负载信息对所述集群的网络延迟进行评估,以及对所述集群的磁盘状态进行评估。
在一种可选的方式中,当主机资源不是YARN独占时,所述方法还包括:
对CPU使用率和内存使用率进行评估;
所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:
根据所述网络延迟、磁盘状态、CPU使用率和内存使用率的评估的结果确定所述集群中节点的健康状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团湖北有限公司;中国移动通信集团有限公司,未经中国移动通信集团湖北有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910394996.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:质差小区识别方法、装置和设备
- 下一篇:程序脚本处理方法、装置和服务器