[发明专利]一种面向多级调度分布式并行计算的监控系统及监控方法有效
申请号: | 201510917999.0 | 申请日: | 2015-12-10 |
公开(公告)号: | CN105703940B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 周智强;刘娜娜;何春江;秦长锋;陈继林;佟德江;孙永峰;张亮;郭中华;陈勇;裘微江;田芳;李亚楼;李勤新;刘琳;罗春青;宫春明;邹卫美 | 申请(专利权)人: | 中国电力科学研究院有限公司;国家电网公司;国网宁夏电力有限公司电力科学研究院 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L29/06;H04L29/08 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 多级 调度 分布式 并行 计算 监控 系统 方法 | ||
1.一种面向多级调度分布式并行计算的监控系统,其特征在于:包括:
本地集群监控模块和多级共享集群监控模块;
本地集群监控模块包括本地集群调度节点、可配置模块和监控处理模块;本地集群调度节点用于定时将本地集群的资源信息发送到连接该集群的监控客户端,供监控客户端统计和展示;可配置模块用于将监控客户端的控制命令发送至本地集群调度节点,本地集群调度节点判断控制命令中的消息类型并将控制命令发送至监控处理模块;监控处理模块根据控制命令对本地集群节点进行处理,并将处理结果发送至本地集群调度节点,本地集群调度节点通过监控响应模块对控制命令进行响应;
多级共享集群监控模块包括分布式的群集调度节点、多级共享集群资源池和管理客户端;所述分布式的群集调度节点将本地集群信息发送至本地集群网关节点监控应用模块;多级共享集群资源池通过本地集群网关节点监控应用模块将本地集群信息写入多级共享集群资源池中,集中管理;管理客户端用于查看资源池中已注册的多个本地集群信息并控制和调整其中一个集群的相应属性;
所述监控系统还包括监控服务器,维护通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态;
通过整个广域网各分布式并行计算平台调度服务器定时接收该平台的集群信息;
当其中一个集群信息的资源不够用时,首先向监控服务器请求共享集群信息资源,根据当前广域网内可用信息资源向适合的集群发送任务联合调度请求;
当请求联合调度的集群计算完成后将计算信息上报到监控服务器;
所述管理客户端为由Zookeeper组成的集群网关节点服务器的管理客户端;不会因其中一个Zookeeper节点失效导致连接到该失效节点的管理客户端获取信息失败,因为当节点失效时Zookeeper在底层自动将该管理客户端与其他有效网关节点建立起了可靠的连接;
所述多级共享集群资源池的建立是按照paxos算法,由Zookeeper框架组成的集群资源池树状结构;Server节点代表每个集群的网关服务器节点,每个网关服务器节点自由的加入或者退出资源池,当资源池建立后,其内部会从Server中选一个作为领导者Leader用于进行投票的发起和决议,更新系统状态,paxos算法原理内部核心机制是原子广播机制,该机制保证各个Server之间的状态和数据同步,实现该机制的协议为Zab协议;Zab协议有两种模式,是恢复模式和广播模式;当服务启动或者在领导者Leader奔溃后,Zab就进入了恢复模式;当领导者被选举出来,且Server完成了和新Leader的状态同步后,恢复模式就结束了;每个本地集群都只向自己的网关节点上报集群信息,然后通过网关服务器节点上调用资源池开放接口将自己的信息记入资源池,实现所有网关服务器节点的实时共享。
2.如权利要求1所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述本地集群的资源信息包括每台本地集群服务器的节点类型、主机名称、CPU核总数、磁盘总量、内存总量、主机IP、已用CPU核数、磁盘使用量、内存使用量、正在计算的工程ID号、正在计算的任务ID号和主机信息更新时间;所述本地集群服务器的节点类型包括调度节点、数据节点和计算节点。
3.如权利要求2所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述监控处理模块对本地集群节点进行的处理包括删除一个或多个计算节点目录功能和生成节点信息并打包上传给监控客户端、查询其中一个或多个计算节点进程信息、结束一个或多个计算节点的一个或多个进程、启动一个或多个计算节点的一个或多个进程。
4.如权利要求1所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述集群信息包括本集群的计算节点数量、集群总核数、集群已用核数、集群可用核数、集群可用磁盘空间、集群级别、集群区域地名信息、集群上级区域名称、支持的计算类型个数及列表、是否同意共享调度和本集群用于外部连接的IP地址。
5.如权利要求1所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述监控服务器的总体框架采用了glib的消息触发机制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网公司;国网宁夏电力有限公司电力科学研究院,未经中国电力科学研究院有限公司;国家电网公司;国网宁夏电力有限公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510917999.0/1.html,转载请声明来源钻瓜专利网。