[发明专利]大规模并行计算机系统的快速启动方法及装置有效

专利信息
申请号: 201210083039.5 申请日: 2012-03-27
公开(公告)号: CN102662696A 公开(公告)日: 2012-09-12
发明(设计)人: 屈婉霞;蒋句平;徐炜遐;田宝华;李宝峰;郑明玲;张晓明;李小芳;付清朝;宋振龙;邢建英;谢旻;迟万庆 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F9/445 分类号: G06F9/445
代理公司: 湖南兆弘专利事务所 43008 代理人: 赵洪;周长清
地址: 410073 湖南省长沙市砚瓦池正*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 大规模 并行 计算机系统 快速 启动 方法 装置
【说明书】:

技术领域

发明涉及计算机系统管理自动化领域,具体涉及一种大规模并行计算机系统的快速启动方法及装置。

背景技术

并行计算机系统通常包含许多通过高速互连网络连接的计算机结点,这些计算机结点都具有自己的微处理器、本地内存、高速互连接口和I/O接口,是物理结构相同但又相对独立的系统。为了进行区分,每个计算机结点都分配一组全局唯一的标识,如网络标识(NID-Network Identification)、IP地址和hostname等,这些具有一定规律的标识称为特征参数。并行计算机系统的结点可以配置本地硬盘并设置为从本地启动系统,但是,在大规模系统中,本地系统的安装、配置和更新非常麻烦并且不易维护版本的一致性。因此,无论是否配置本地硬盘,通过网络从启动服务器获取相应的网络引导程序和系统内核来初始化硬件并引导其它程序的方法是当前普遍采用的启动方式。在数以千计甚至上万个结点构成的大规模并行计算机系统中,存在不同程度的对多个结点加电/复位的应用需求,快速启动这些计算机结点是并行计算机系统管理软件的主要功能之一,是并行计算机系统管理自动化的重要组成部分。对于大规模并行计算机系统而言,全系统启动时间在很大程度上取决于结点特征参数的配置方法和内核的分发策略。

目前,配置结点特征参数的方法主要有两种:一种方法是借助网络接口卡(NIC-Network Interface Control)的MAC地址的唯一性来标识结点。结点加电/复位时,兼容预启动执行环境(PXE-Preboot Execution Environment)规范的BIOS将MAC地址广播到动态主机配置协议(DHCP-Dynamic Host Configure Protocol)服务器,DHCP服务器按照配置文件的约定返回结点IP地址、启动服务器IP地址和其它参数。但是,这种方法在更换计算机结点或更换NIC后将导致MAC地址变化,DHCP服务器软件必须覆盖足够多的MAC地址,同时并行计算机系统管理软件还必须定期检测结点的MAC地址是否发生变动,在大规模并行计算机系统中,由于计算机结点数量非常多,这些工作非常耗时;另一种方法是将计算机结点所连接的交换机端口号作为配置依据,好处是可随意替换计算机结点无需考虑MAC地址改变带来的影响。但是,这种方法要求交换机是可以被管理的并且结点和交换机端口的映射关系不能随意变动。事实上,一个交换机的端口因状态不稳定而不得不换用其它端口的事情经常发生,因此这种方法仍然缺乏灵活性。

PXE是Intel提出的一个业内标准的网络启动方法,受到许多软硬件供应商支持,因其开放性得到最广泛应用。兼容PXE规范的NIC是PXE客户端,DHCP服务器和启动服务器是PXE服务器端,PXE客户端启动时,必须执行以下两个操作:从DHCP服务器获得一个IP地址和找到一台PXE启动服务器,该服务器将向PXE客户端发送启动所需的文件。一般情况下,并行计算机系统配置一台DHCP服务器和一台启动服务器(也可能启动服务器上同时运行DHCP服务),所有结点从同一个地点获取内核和应用软件。然而,当前计算机系统的发展速度已超出人们的想象,网格、云等大规模计算机系统层出不穷,超过99%的TOP500计算机系统中结点数均已超过K级(2011年6月统计数字),在这样的系统中,当较多的计算机结点同时启动时,启动服务器的性能和带宽可能与需求失配导致系统启动缓慢。

发明内容

本发明要解决的技术问题是提供一种启动速度快、启动效率高、灵活性好、实施成本低的大规模并行计算机系统的快速启动方法及装置。

为了解决上述技术问题,本发明采用的技术方案为:

一种大规模并行计算机系统的快速启动方法,其实施步骤如下:为每一个计算机结点设置配置接口,计算机结点在启动前预先读取配置接口中存储的用于系统启动所需的特征参数;如果配置接口中的特征参数可用,则计算机结点根据读取的特征参数启动系统;如果配置接口中的特征参数不可用,则先通过一个管理控制器为该计算机结点生成特征参数并写入所对应的配置接口,然后计算机结点从配置接口读取特征参数并根据读取的特征参数启动系统。

作为本发明大规模并行计算机系统的快速启动方法的进一步改进:

所述管理控制器的工作流程为:

1)每个管理控制器对应一组计算机结点并形成一个管理域,每一个管理控制器分配有唯一的系统编号,每一个管理域内的计算机结点均被分配一个唯一的域编号,并为管理域指定用于提供启动文件服务的启动服务器;

2)管理控制器通过带外管理网络接收计算机结点发送的中断请求;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210083039.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top