[发明专利]一种基于龙芯平台的高性能计算资源监控实现方法在审
申请号: | 201410786020.6 | 申请日: | 2014-12-18 |
公开(公告)号: | CN104468810A | 公开(公告)日: | 2015-03-25 |
发明(设计)人: | 赵瑞东;陈亮甫;吴登勇 | 申请(专利权)人: | 山东超越数控电子有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L12/26 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 张靖 |
地址: | 250100 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 平台 性能 计算 资源 监控 实现 方法 | ||
技术领域
本发明涉及计算机服务器通信技术领域,具体涉及一种基于龙芯平台的高性能计算资源监控实现方法。
技术背景
高性能计算(HPC)集群主要是完成大规模的数据计算问题。采用多个节点来共同执行计算任务,以提高信息计算系统的运算效率。目前主要应用于X86平台。而在国产化计算机服务器等自主领域,尤其是龙芯平台中,其运算性能还比较低,与国外先进计算机系统相比还具有较大的差距,而且还没有相关的资源监控策略。因此,在龙芯平台中,采用高性能计算资源监控方法来提高其计算效率、对资源进行实时监控凸显重要。
发明内容
本发明要解决的技术问题是:如何克服现有技术的上述缺陷,提供一种在国产化计算机服务器等自主领域尤其是龙芯平台上实现高性能计算资源监控的方法。
本发明所采用的技术方案为:
一种基于龙芯平台的高性能计算资源监控实现方法,所述方法实现步骤如下:
1)采用龙芯多单元服务器的N个服务器构成集群,其中1个服务器作为控制节点、剩余服务器作为计算节点;
2)每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,并与服务器的infiniband交换机相连,进而构建控制节点与计算节点之间的数据通信网络;
3)在每个服务器的操作系统中配置infiniband通信方式为IPoIB方式,以此来进行并行程序间的数据通信;
4)分别在控制节点与计算节点中修改编译OpenMPI,使其可以在龙芯平台中应用,部署基于OpenMPI的并行程序编译与运行环境;
5)在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态;
6)用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。
所述方法在控制节点中通过修改资源监控软件,部署可用于龙芯平台的web端监控界面、监控管理端(gmetad)、客户端(gmond),并部署gmetad的依赖软件rrdtool及httpd服务等。
所述方法在计算节点中修改专用作业管理软件,部署可用于龙芯平台的客户端(gmond)。
各个计算节点通过gmond收集本机的信息(如:CPU、memeory等),然后将信息数据发送给控制节点中的gmond,控制节点中的gmetad向本机中的gmond请求数据信息,然后存入rrdtool数据库,最后通过web端界面显示出各个节点的资源状态信息,以实现对各个节点的实时监测。
所述服务器为服务器刀片。
本发明的有益效果为:本发明具有设计科学、使用方便等优点,可在国产化计算机服务器领域尤其是申威平台中实现,便于推广使用,可以应用于陆地、航空、卫星等领域。
附图说明
图1为本发明基于龙芯平台的高性能计算的结构框图;
图2为本发明基于龙芯平台的资源监控工作流程图。
具体实施方式
下面参照附图所示,通过具体实施方式对本发明进一步说明:
如图1所示,一种基于龙芯平台的高性能计算资源监控实现方法,所述方法实现步骤如下:
1)采用龙芯多单元服务器的N个服务器构成集群,其中1个服务器作为控制节点、剩余服务器作为计算节点;
2)每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,并与服务器的infiniband交换机相连,进而构建控制节点与计算节点之间的数据通信网络;
3)在每个服务器的操作系统中配置infiniband通信方式为IPoIB方式,以此来进行并行程序间的数据通信;
4)分别在控制节点与计算节点中修改编译OpenMPI,使其可以在龙芯平台中应用,部署基于OpenMPI的并行程序编译与运行环境;
5)在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态;
6)用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东超越数控电子有限公司,未经山东超越数控电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410786020.6/2.html,转载请声明来源钻瓜专利网。