[发明专利]一种基于Linux的HPC作业调度实现高可用的方法在审
申请号: | 201510819166.0 | 申请日: | 2015-11-20 |
公开(公告)号: | CN105468446A | 公开(公告)日: | 2016-04-06 |
发明(设计)人: | 唐珂 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 张靖 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 linux hpc 作业 调度 实现 可用 方法 | ||
1.一种基于Linux的HPC作业调度实现高可用的方法,其特征在于:所述方法在开源的 Torque调度器互备功能的基础上,通过DRBD+HEARTBEAT方式,将Torque的相关配置文件和 路径共享,最终通过浮动IP以及NFS实现双机互备的完整功能。
2.根据权利要求1所述的一种基于Linux的HPC作业调度实现高可用的方法,其特征在 于,所述方法包括:1)集群高可用性;2)Torque资源管理器;3)DRBD+HEARTBEAT方案;其 中:
1)集群高可用性:集群是由一系列独立的计算机,通过高速互联网路连接在一起,通过 统一的管理对外提供服务的计算机组;集群高可用性通常里描述一个系统经过专门设计, 尽可能减少停工时间,从而保证集群业务的连续性;
2)Torque资源管理器:对集群中的计算资源、网络、存储资源统一管理和调度,同时具 有对当前集群资源的负载情况、工作状态监控的功能;
3)DRBD+HEARTBEAT方案:DRBD是实现资源同步的主流软件,HEARTBEAT是实现互备资源 监控的主流软件,两者构成一个比较成熟的双机互备方案。
3.根据权利要求2所述的一种基于Linux的HPC作业调度实现高可用的方法,其特征在 于,所述方法采用的高可用方案为双机主备方案,部署步骤如下:
根据Torque+Maui的部署方式,所述Torque调度器环境分为:
server端,部署高可用的调度器服务节点;
client端,部署调度器提交作业服务节点;
mom端,部署调度器运行节点;
其中:
1)浮动IP,提供调度器的server端的访问路径和端口;
2)NFS服务,提供调度器所需的配置文件存放路径;
3)NTP服务,提供调度器以及整个集群的时间同步功能。
4.根据权利要求3所述的一种基于Linux的HPC作业调度实现高可用的方法,其特征在 于,所述方法具体操作过程如下:
1)配置hosts文件,将所有客户端节点的信息都写入到hosts文件,并保证节点间可相 互实现无密码访问;
2)配置NTP时间同步服务,作为server端的主服务器和备服务器必须同步以保证高可 用的正常功能;
3)配置HEARTBEAT,Heartbeat主要负责监控drbd资源,失效切换和浮动IP设置;
4)配置Torque,安装Torque之前要确定安装位置,要确定共享存储的挂载情况。
5.根据权利要求4所述的一种基于Linux的HPC作业调度实现高可用的方法,其特征在 于,所述共享存储的挂载情况为:两台互备机器共享一套NAS存储,设置heartbeat对服务进 行监控。
6.根据权利要求4所述的一种基于Linux的HPC作业调度实现高可用的方法,其特征在 于,所述共享存储的挂载情况为:两台互备机器没有共享NAS存储,需要配置drbd构建方案, 配置DRBD,使用DRBD为调度器的server端节点提供共享存储空间,用来存放PBS和maui的配 置文件,并为PBS提供lock_file_update_time,lock_file,lock_file_check_time和 server_priv共享存储空间。
7.根据权利要求6所述的一种基于Linux的HPC作业调度实现高可用的方法,其特征在 于,drbd配置如下:
安装DRBD;
编辑配置文件/etc/drbd.conf;
初始化drbd;
启动drbd服务;
设置主从关系。
8.根据权利要求5或6所述的一种基于Linux的HPC作业调度实现高可用的方法,其特征 在于,配置HEARTBEAT过程如下:
安装heartbeat;
配置HEARTBEAT文件ha.cf;
配置/etc/heartbeat/haresources文件;
开启服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510819166.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于社区概念的分布式容错方法
- 下一篇:应用软件安装方法和装置